Термин глоссария

Weight decay

Weight decay — метод регуляризации, уменьшающий величину весов модели при обучении, чтобы снизить переобучение и стабилизировать оптимизацию.

Определение

Weight decay — это техника, при которой оптимизатор дополнительно уменьшает значения весов модели пропорционально их величине. Метод предотвращает рост весов до больших значений, снижает переобучение и помогает модели оставаться в устойчивой зоне параметров. Weight decay применяется практически во всех современных оптимизаторах, включая AdamW, SGD и их модификации.

Как работает

Weight decay добавляет к обновлению весов дополнительный член, пропорциональный текущему значению веса. Основные элементы механизма:

L2-наказание — веса уменьшаются на величину λ * w, где λ — коэффициент регуляризации;
разделение оптимизации — в AdamW weight decay применяется отдельно от градиента, что делает поведение стабильнее;
контроль нормы весов — веса не растут неконтролируемо;
улучшение обобщающей способности — меньшие веса снижают риск переобучения.

В результате модель избегает чрезмерной подгонки под тренировочные данные, особенно в условиях большого количества параметров и сложных архитектур.

Где применяется

Глубокие модели с большим числом параметров.
Трансформеры, особенно при обучении больших корпусов.
Модели, склонные к переобучению на малых датасетах.
Оптимизаторы с адаптивными шагами.
Дообучение моделей на чувствительных данных.

Практические примеры использования

При дообучении модели на пользовательских данных weight decay снижает риск, что обновления разрушат предобученные представления.

В больших трансформерах weight decay используется совместно с gradient clipping для стабилизации обучения и предотвращения роста весов, которые могут привести к потере сходимости.

В задачах классификации weight decay уменьшает переобучение, особенно когда модель тренируется на относительно небольших выборках.

В оптимизаторах AdamW weight decay обеспечивает более предсказуемое обновление параметров по сравнению с классическим L2-регуляризатором.

Преимущества и ограничения

Плюс: снижает переобучение.
Плюс: стабилизирует обучение.
Плюс: уменьшает рост весов.
Плюс: работает эффективно во всех современных оптимизаторах.
Минус: слишком высокий коэффициент ухудшает способность модели учиться.
Минус: требует настройки под конкретную задачу.
Минус: взаимодействует с learning rate, что усложняет оптимизацию.
Минус: может приводить к чрезмерному сглаживанию весов.

Связанные термины

Реgularization
Gradient clipping
Optimizer
Learning rate
Loss function
L2 penalty
AdamW

Категория термина

Обучение и дообучение

Экосистемы