Термин глоссария

Dropout

Dropout — метод регуляризации, при котором часть нейронов временно отключается во время обучения, чтобы предотвратить переобучение модели.

Определение

Dropout — это техника регуляризации, при которой на каждом шаге обучения случайная доля нейронов в слое временно исключается из вычислений. Отключённые нейроны не участвуют ни в прямом проходе, ни в обратном распространении ошибки.

Поскольку каждый шаг обучения использует разные подмножества нейронов, модель не фиксируется на отдельных признаках и не подстраивается под шум в данных. Это уменьшает переобучение и улучшает обобщающую способность.

Как работает

Dropout действует как стохастическое обнуление активаций. Механизм включает два режима:

во время обучения — случайный процент нейронов отключается с вероятностью p;
во время инференса — нейроны не отключаются, а их активации масштабируются для компенсации dropout.

Ключевые элементы:

маски dropout — бинарные матрицы, определяющие, какие нейроны активны;
p-dropout — вероятность отключения (обычно 0.1–0.5);
scale-инвариантность — на инференсе активации умножаются на (1 — p), чтобы сохранить распределение значений.

Dropout фактически обучает ансамбль моделей, каждая из которых использует свою конфигурацию активных нейронов. На инференсе они «усредняются» в виде единой сети.

Где применяется

Полносвязные слои в крупных моделях.
Рекуррентные архитектуры (с модифицированными вариантами, такими как variational dropout).
Трансформеры — в attention-блоках и feed-forward слоях.
Дообучение моделей на малых наборах данных.
Регуляризация больших моделей при ограниченных тренировочных данных.

Практические примеры использования

При обучении трансформеров dropout применяется в attention-модулях и позиционных feed-forward блоках для стабилизации обучения и снижения переобучения.

В задачах классификации с небольшим датасетом dropout помогает модели не заучивать шум — отключение случайных нейронов заставляет её использовать более универсальные признаки.

При дообучении на новых доменах dropout предотвращает ситуацию, когда модель слишком сильно адаптируется под ограниченную новую выборку и теряет качество на старых данных.

В RNN и LSTM-архитектурах используются модифицированные версии dropout, чтобы сохранить стабильность через время.

Преимущества и ограничения

Плюс: снижает переобучение.
Плюс: работает как ансамбль моделей.
Плюс: легко внедряется во все основные архитектуры.
Плюс: совместим с большинством оптимизаторов.
Минус: увеличивает время обучения из-за стохастичности.
Минус: может замедлять сходимость.
Минус: требует настройки вероятности dropout.
Минус: в некоторых архитектурах (например, больших трансформерах) слишком высокий порог снижает качество.

Связанные термины

Реgularization
Weight decay
Batch normalization
Overfitting
AdamW
Ensembling
Variational dropout

Категория термина

Обучение и дообучение

Экосистемы