Термин глоссария

Perplexity

Perplexity — метрика, отражающая, насколько уверенно модель предсказывает токены: чем ниже значение, тем лучше модель соответствует данным.

Определение

Perplexity — это ключевая метрика, используемая для оценки языковых моделей на этапе обучения и валидации. Она измеряет, насколько «смущена» модель при предсказании следующего токена: низкая perplexity означает, что модель уверена и часто угадывает правильные токены, высокая — что модель делает неопределённые или ошибочные прогнозы.

Формально perplexity — это экспонента средней cross-entropy. Если модель идеально предсказывает данные, perplexity стремится к 1. Если модель выдаёт почти равномерные вероятности, perplexity растёт.

Как работает

В процессе оценки модель последовательно предсказывает токены. Для каждого токена вычисляется log-вероятность правильного ответа. Среднее отрицательное значение логарифмов формирует cross-entropy. Perplexity — экспонента этой cross-entropy:

Perplexity = exp(average cross-entropy)

Ключевые свойства механизма:

Чувствительность к вероятностям — снижение вероятности правильного токена резко увеличивает perplexity.
Отражение уверенности модели — метрика показывает, насколько распределение вероятностей соответствует данным.
Сравнимость между моделями — позволяет оценивать прогресс обучения.
Относительная независимость от длины текста — используется усреднение по токенам.

Perplexity — удобная метрика для мониторинга обучения: при снижении ошибки снижение perplexity показывает, что модель становится более предсказуемой и устойчивой.

Где применяется

Оценка качества языковых моделей при обучении.
Сравнение архитектур или гиперпараметров.
Отбор checkpoints.
Диагностика переобучения или деградации.
Анализ влияния датасетов на модель.
Тестирование моделей до стадии post-training.

Практические примеры использования

При обучении больших моделей perplexity используется для наблюдения за прогрессом: если метрика стабильно падает, обучение движется в правильном направлении. Если perplexity перестаёт снижаться или начинает расти — это признак проблем: нехватка данных, завышенный learning rate, переобучение, слабое качество датасета.

В инженерных пайплайнах perplexity помогает выбирать лучший checkpoint: тот, у которого метрика ниже на валидационном наборе.

В тестировании датасетов perplexity применяют для анализа сложности корпуса: высокие значения говорят о разнообразии и непредсказуемости текстов, низкие — о шаблонности или повторяемости.

Ключевые свойства perplexity

Интерпретируемость — показывает эффективное число возможных вариантов следующего токена.
Стабильность — гладкая метрика для мониторинга обучения.
Масштабируемость — работает одинаково для моделей любого размера.
Связь с вероятностями — напрямую выражает уверенность модели.

Проблемы и ограничения

Не отражает качество смысла — модель с низкой perplexity может всё равно давать некачественные ответы.
Чувствительность к домену — при изменении области perplexity резко растёт.
Не учитывает структуру текста — оценивает только токенизацию и вероятности.
Плохо работает для моделей после post-training — не отражает реальных пользовательских задач.

Преимущества и ограничения

Плюс: простая и широко используемая метрика.
Плюс: позволяет отслеживать динамику обучения.
Плюс: полезна для раннего анализа качества модели.
Плюс: помогает в выборе гиперпараметров.
Минус: не показывает способность к reasoning.
Минус: плохо коррелирует с качеством диалоговых задач.
Минус: теряет смысл после стадии alignment.
Минус: сильно зависит от домена обучающих данных.

Связанные термины

Cross-entropy
Negative log-likelihood
Softmax
Language modeling
Loss function
Validation metrics

Категория термина

Обучение и дообучение

Экосистемы