Weight decay: контроль роста весов

Термин глоссария

Weight decay


Weight decay — метод регуляризации, уменьшающий величину весов модели при обучении, чтобы снизить переобучение и стабилизировать оптимизацию.

Определение

Weight decay — это техника, при которой оптимизатор дополнительно уменьшает значения весов модели пропорционально их величине. Метод предотвращает рост весов до больших значений, снижает переобучение и помогает модели оставаться в устойчивой зоне параметров. Weight decay применяется практически во всех современных оптимизаторах, включая AdamW, SGD и их модификации.

Как работает

Weight decay добавляет к обновлению весов дополнительный член, пропорциональный текущему значению веса. Основные элементы механизма:

  • L2-наказание — веса уменьшаются на величину λ * w, где λ — коэффициент регуляризации;
  • разделение оптимизации — в AdamW weight decay применяется отдельно от градиента, что делает поведение стабильнее;
  • контроль нормы весов — веса не растут неконтролируемо;
  • улучшение обобщающей способности — меньшие веса снижают риск переобучения.

В результате модель избегает чрезмерной подгонки под тренировочные данные, особенно в условиях большого количества параметров и сложных архитектур.

Где применяется

  • Глубокие модели с большим числом параметров.
  • Трансформеры, особенно при обучении больших корпусов.
  • Модели, склонные к переобучению на малых датасетах.
  • Оптимизаторы с адаптивными шагами.
  • Дообучение моделей на чувствительных данных.

Практические примеры использования

При дообучении модели на пользовательских данных weight decay снижает риск, что обновления разрушат предобученные представления.

В больших трансформерах weight decay используется совместно с gradient clipping для стабилизации обучения и предотвращения роста весов, которые могут привести к потере сходимости.

В задачах классификации weight decay уменьшает переобучение, особенно когда модель тренируется на относительно небольших выборках.

В оптимизаторах AdamW weight decay обеспечивает более предсказуемое обновление параметров по сравнению с классическим L2-регуляризатором.

Преимущества и ограничения

  • Плюс: снижает переобучение.
  • Плюс: стабилизирует обучение.
  • Плюс: уменьшает рост весов.
  • Плюс: работает эффективно во всех современных оптимизаторах.
  • Минус: слишком высокий коэффициент ухудшает способность модели учиться.
  • Минус: требует настройки под конкретную задачу.
  • Минус: взаимодействует с learning rate, что усложняет оптимизацию.
  • Минус: может приводить к чрезмерному сглаживанию весов.

Связанные термины

  • Regularization
  • Gradient clipping
  • Optimizer
  • Learning rate
  • Loss function
  • L2 penalty
  • AdamW

Категория термина

Обучение и дообучение