Термин глоссария

MMLU

MMLU — это многоотраслевой бенчмарк, измеряющий способность моделей решать задачи в десятках академических и профессиональных дисциплин, оценивая реальное качество знаний и устойчивость reasoning.

Определение

MMLU (Massive Multitask Language Understanding) — это крупный бенчмарк, созданный для оценки способности языковых моделей понимать и решать задачи из разных областей знаний. Набор состоит из множества тестов: STEM-дисциплины, медицина, право, экономика, история, менеджмент, гуманитарные науки, бизнес-процессы.

Каждое задание представляет собой вопрос с несколькими вариантами ответа. Модель должна выбрать один правильный вариант. Такой формат позволяет сравнивать модели по объективной метрике: процент правильных решений. В отличие от простых тестов на QA, MMLU проверяет глубину знаний, устойчивость логики и способность удерживать контекст дисциплины.

Как работает

MMLU устроен как агрегированный экзамен, включающий десятки под-бенчмарков. Механизм оценки выглядит так:

вопросы распределены по темам: физика, биология, юриспруденция, медицина, финансы, социология, психология и др.;
формат — multiple choice: модель должна выбрать одну из опций;
вопросы покрывают как базовые знания, так и профессиональные задания высокого уровня;
результаты по темам агрегируются в итоговый показатель;
на практике тестируют две схемы: few-shot и zero-shot.

В few-shot модель получает несколько примеров для ориентации. В zero-shot — отвечает без подсказок. Zero-shot считается более строгой проверкой способности модели к устоявшемуся reasoning без внешнего влияния.

Внутри трансформеров успех на MMLU зависит от качества предварительного обучения: объёмов корпуса, состава доменных текстов, баланса дисциплин, способности модели удерживать контекст правил, дат и определений.

Где применяется

Сравнение больших языковых моделей: выборка MMLU используется как стандарт отрасли.
Проверка качества доменного обучения: модели, дообученные на технических корпусах, проверяются по тематическим блокам.
Оценка reasoning-моделей: проверка цепочек логики и умения решать неочевидные задачи.
Тестирование корпоративных ассистентов: насколько модель понимает документы, термины, регламенты.
Исследования: анализ влияния датасетов, архитектур, tokenizers и scale laws на знания модели.
Регулярные сравнения LLM в индустрии: публикации о новых релизах часто включают результаты MMLU.

Практические примеры использования

При выпуске новой версии LLM разработчики обычно приводят результат MMLU в zero-shot и few-shot режимах. Разница показывает, насколько модель улавливает примеры и как сильно зависит от подсказки.

В корпоративной среде MMLU помогает оценить, подходит ли модель для задач юридического анализа, финансовых отчётов или медицинской справочной системы. Высокий результат по отдельным дисциплинам указывает на готовность модели работать с узкими областями.

При обучении моделей на synthetic data MMLU показывает, не ухудшились ли фундаментальные знания из-за смещений в выборке. Если показатели падают — fine-tuning был выполнен неправильно или учёл слишком узкие сценарии.

При сравнении open-source моделей MMLU используется как общий язык общения. Например, модели 7B, 13B и 70B показывают различную способность решать задачники по физике, праву и биологии, и эти значения позволяют объективно сравнивать архитектуры и подходы.

В исследовательских пайплайнах MMLU применяется для тестирования на устойчивость reasoning. Эксперименты включают анализ длинных цепочек, проверку ошибок выдуманных фактов и оценку способности модели отвечать строго по теме.

Преимущества и ограничения

Плюс: единый, стандартизированный бенчмарк для сравнения LLM.
Плюс: глубокое тематическое покрытие, включая профессиональные дисциплины.
Плюс: поддержка zero-shot и few-shot режимов.
Минус: формат multiple choice ограничивает типы задач.
Минус: распределение тем не всегда отражает реальные запросы пользователей.
Минус: модели могут подстраиваться под структуру теста, не улучшая реальные знания.
Минус: высокий результат не гарантирует устойчивость к hallucination.

Связанные термины

Реasoning
Zero-shot
Few-shot
Benchmarks
Evaluations
Scaling laws
Hallucination моделей
Instruction tuning
Consistency evaluation

Категория термина

Генерация и поведение моделей

Экосистемы