Cross-entropy в обучении моделей

Термин глоссария

Cross-entropy


Cross-entropy — функция потерь, измеряющая расхождение между распределением модели и целевым распределением, используемая для обучения генеративных моделей.

Определение

Cross-entropy — базовая функция потерь, применяемая при обучении языковых моделей, классификаторов и других вероятностных моделей. Она измеряет разницу между целевым распределением и распределением, которое предсказывает модель. В языковых моделях cross-entropy используется для оценки того, насколько прогнозируемая моделью вероятность правильного токена соответствует реальному ответу.

При минимизации cross-entropy модель учится назначать более высокую вероятность токенам, которые действительно встречаются в целевых данных, и снижать вероятность неправильных токенов. Это делает функцию потерь ключевым элементом всего процесса обучения.

Как работает

Cross-entropy вычисляется как среднее значение отрицательного логарифма вероятности правильного класса. В задачах языкового моделирования «правильным классом» является целевой токен.

Формально, для токена t:

-log P(t)

Чем выше вероятность правильного токена, тем меньше значение cross-entropy. Если модель уверенно ошибается, значение потерь резко растёт.

Ключевые особенности механизма:

  • Работа с вероятностями — функция потерь напрямую использует распределение softmax.
  • Чувствительность к ошибкам — неправильные прогнозы сильно увеличивают значение потерь.
  • Логарифмический масштаб — помогает стабилизировать обучение.
  • Совместимость с градиентным спуском — легко дифференцируется.

Cross-entropy также используется в многоступенчатых системах: при обучении токенов, оценке последовательностей и выборе моделей в ансамблях.

Где применяется

  • Обучение языковых моделей на больших корпусах текста.
  • Классификация изображений, аудио, текста.
  • Дообучение моделей на инструкциях.
  • Обучение моделей ранжирования через вероятностные распределения.
  • Оценка качества генерации в задачах предсказания токенов.
  • Сравнение различных архитектур на этапе валидации.

Практические примеры использования

В языковых моделях cross-entropy используется при обучении предсказывать следующий токен. На каждом шаге модель выдаёт распределение вероятностей по словарю, и cross-entropy отражает, насколько модель приблизилась к правильному токену.

При supervised fine-tuning cross-entropy измеряет качество воспроизведения эталонного ответа. Функция потерь снижается, когда модель начинает структурно и по смыслу соответствовать ожидаемому выводу.

В задачах классификации cross-entropy сравнивает распределение модели с one-hot целевым вектором, обеспечивая мощный градиент для корректировки весов.

В системах предпочтений cross-entropy может использоваться в качестве компонента ранговой функции, если предпочтения выражены вероятностно.

Ключевые свойства cross-entropy

  • Стабильная оптимизация — smooth градиенты, устойчивые к шуму.
  • Высокая чувствительность к редким событиям — важна при больших словарях.
  • Интерпретируемость — напрямую связана с вероятности правильного ответа.
  • Совместимость с большим числом архитектур — применяется в Transformer, CNN, RNN и гибридных моделях.

Проблемы и ограничения

  • Переуверенные модели — может приводить к чрезмерно уверенным распределениям.
  • Высокая чувствительность к шуму — неправильные данные резко увеличивают потери.
  • Плохая устойчивость в задачах с дисбалансом классов — требуется корректировка весов.
  • Неполное отражение качества генерации — сниженная cross-entropy не всегда означает лучший текст.

Преимущества и ограничения

  • Плюс: простая и хорошо изученная функция.
  • Плюс: работает с любыми вероятностными моделями.
  • Плюс: обеспечивает устойчивые градиенты.
  • Плюс: иерархически применима в любых размерах моделей.
  • Минус: не отражает структурное качество текста.
  • Минус: чувствительна к ошибкам разметки.
  • Минус: переоценка вероятностной уверенности.
  • Минус: может приводить к низкой разнообразности ответов.

Связанные термины

  • Negative log-likelihood
  • Softmax
  • Supervised fine-tuning
  • Perplexity
  • Gradient descent
  • KL-divergence
  • Loss function

Категория термина

Обучение и дообучение