Weight decay — метод регуляризации, уменьшающий величину весов модели при обучении, чтобы снизить переобучение и стабилизировать оптимизацию.
Определение
Weight decay — это техника, при которой оптимизатор дополнительно уменьшает значения весов модели пропорционально их величине. Метод предотвращает рост весов до больших значений, снижает переобучение и помогает модели оставаться в устойчивой зоне параметров. Weight decay применяется практически во всех современных оптимизаторах, включая AdamW, SGD и их модификации.
Как работает
Weight decay добавляет к обновлению весов дополнительный член, пропорциональный текущему значению веса. Основные элементы механизма:
- L2-наказание — веса уменьшаются на величину λ * w, где λ — коэффициент регуляризации;
- разделение оптимизации — в AdamW weight decay применяется отдельно от градиента, что делает поведение стабильнее;
- контроль нормы весов — веса не растут неконтролируемо;
- улучшение обобщающей способности — меньшие веса снижают риск переобучения.
В результате модель избегает чрезмерной подгонки под тренировочные данные, особенно в условиях большого количества параметров и сложных архитектур.
Где применяется
- Глубокие модели с большим числом параметров.
- Трансформеры, особенно при обучении больших корпусов.
- Модели, склонные к переобучению на малых датасетах.
- Оптимизаторы с адаптивными шагами.
- Дообучение моделей на чувствительных данных.
Практические примеры использования
При дообучении модели на пользовательских данных weight decay снижает риск, что обновления разрушат предобученные представления.
В больших трансформерах weight decay используется совместно с gradient clipping для стабилизации обучения и предотвращения роста весов, которые могут привести к потере сходимости.
В задачах классификации weight decay уменьшает переобучение, особенно когда модель тренируется на относительно небольших выборках.
В оптимизаторах AdamW weight decay обеспечивает более предсказуемое обновление параметров по сравнению с классическим L2-регуляризатором.
Преимущества и ограничения
- Плюс: снижает переобучение.
- Плюс: стабилизирует обучение.
- Плюс: уменьшает рост весов.
- Плюс: работает эффективно во всех современных оптимизаторах.
- Минус: слишком высокий коэффициент ухудшает способность модели учиться.
- Минус: требует настройки под конкретную задачу.
- Минус: взаимодействует с learning rate, что усложняет оптимизацию.
- Минус: может приводить к чрезмерному сглаживанию весов.
Связанные термины
- Regularization
- Gradient clipping
- Optimizer
- Learning rate
- Loss function
- L2 penalty
- AdamW