Термин глоссария

Gradient clipping

Gradient clipping — метод ограничения величины градиентов, предотвращающий их взрывной рост и стабилизирующий процесс обучения.

Определение

Gradient clipping — это техника, используемая в обучении моделей для ограничения нормы градиента при обновлении весов. Если градиенты становятся слишком большими, они вызывают резкие и неконтролируемые изменения параметров, что приводит к нестабильности, потерям на обучении и срыву сходимости. Clipping ограничивает их величину заданным порогом, предотвращая «взрыв градиентов».

Метод особенно важен в моделях с рекуррентными или глубокими архитектурами, где градиенты могут расти экспоненциально.

Как работает

Механизм clipping заключается в проверке нормы градиента и её корректировке, если она превышает порог. Основные варианты:

clipping по норме — если норма градиента превышает порог, он масштабируется вниз пропорционально;
clipping по компонентам — каждая компонента градиента ограничивается по модулю;
адаптивное clipping — порог регулируется динамически в зависимости от динамики обучения;
clipping на уровне слоёв — разные пороги для разных частей модели.

На практике чаще всего используется clipping по норме: если ||g|| > T, то g = g * (T / ||g||). Это позволяет сохранить направление градиента, но уменьшить его длину.

Где применяется

Глубокие модели, чувствительные к взрывным градиентам.
Рекуррентные сети и последовательные архитектуры.
Обучение трансформеров на больших батчах.
Финальное дообучение моделей на новых данных.
Стабилизация оптимизации при длинных шагах.
Контроль поведения оптимизаторов второго порядка.

Практические примеры использования

При обучении модели на больших последовательностях градиенты могут резко вырасти на отдельных шагах. Clipping стабилизирует процесс, предотвращая выбросы и неконтролируемое изменение весов.

В архитектурах с большими батчами clipping помогает уменьшить колебания обновлений, сохраняя направление оптимизации и улучшая сходимость.

При дообучении модели на пользовательских или специфических данных clipping снижает риск разрушения ранее обученных представлений из-за резкого скачка градиентов.

В комбинированных задачах clipping применяется совместно с регуляризацией и снижением learning rate для получения стабильной траектории обучения.

Преимущества и ограничения

Плюс: предотвращает взрыв градиентов.
Плюс: улучшает стабильность обучения.
Плюс: сохраняет направление градиента.
Плюс: простота интеграции в любой оптимизатор.
Минус: при слишком малом пороге обучение может замедлиться.
Минус: неправильно выбранный порог снижает качество сходимости.
Минус: возможные артефакты в моделях с неоднородными слоями.
Минус: необходимость ручной настройки при разных задачах.

Связанные термины

Gradient descent
Learning rate
Реgularization
Optimizer
Batch size
Vanishing gradients
Exploding gradients

Категория термина

Обучение и дообучение

Экосистемы