Термин глоссария

РеLU

РеLU — простая активация, которая пропускает положительные значения и обнуляет отрицательные, формируя разрежённые и легко обучаемые представления.

Определение

РеLU (Реctified Linear Unit) — одна из самых распространённых функций активации в нейронных сетях. Она определена формулой РеLU(x) = max(0, x) и представляет собой простое обрезание отрицательных значений. Благодаря отсутствию сложных вычислений и хорошей масштабируемости РеLU долгое время была стандартом для глубоких моделей, особенно в компьютерном зрении и ранних архитектурах обработки текста.

РеLU формирует разрежённые представления — значительная часть значений обнуляется, что снижает вычислительные затраты и уменьшает риск взрывных градиентов.

Как работает

Активация применяется к каждому элементу скрытого представления независимо. Если значение положительное, оно остаётся неизменным; если отрицательное — заменяется нулём.

линейность для x > 0 — избегает насыщения и сохраняет стабильный градиент;
обнуление x ≤ 0 — обеспечивает разрежённость;
простые вычисления — только сравнение и копирование значения;
локальность — применяется покомпонентно;
стабильность градиента — нет экспонент и сложных производных.

Благодаря своей структуре РеLU стала основным драйвером успеха глубоких CNN-поколений и ранних сетей обработки текста.

Где применяется

Компьютерное зрение (CNN-архитектуры).
Классические многослойные перцептроны.
Вспомогательные проекции в моделях мультимодальности.
Лёгкие модели и архитектуры для edge-устройств.
Некоторые формы FFN в старых трансформерах.

Практические примеры использования

В CNN РеLU ускоряет обучение и стабилизирует глубокие слои, так как положительные значения передаются без искажений, а отрицательные обрезаются. Это помогает формировать «специализированные» фильтры, где разные каналы отвечают за различные признаки изображения.

В ранних архитектурах текстовых моделей РеLU использовали в FFN-блоках, однако в трансформерах она уступила место более гладким нелинейностям (GELU, Swish, SwiGLU), которые обеспечивают лучшую устойчивость обучения.

В lightweight-моделях РеLU всё ещё используется благодаря минимальной стоимости вычислений и высокой предсказуемости поведения.

Основные проблемы РеLU

Несмотря на популярность, РеLU имеет ряд серьёзных ограничений:

«вымирающие нейроны» — если значение ушло в отрицательную область, градиент становится нулевым, и нейрон может перестать обучаться;
жёсткое отсечение — отсутствие плавного перехода приводит к резким скачкам производных;
нестабильность на больших глубинах — при увеличении числа слоёв сигнал может полностью деградировать;
низкая выразительность в сравнение с gating-модулями — современные FFN требуют более гибких нелинейностей.

Из-за этих ограничений РеLU практически вышла из использования в трансформерах.

Улучшенные варианты

Чтобы решить проблемы РеLU, были разработаны её вариации:

Leaky РеLU — небольшое пропускание отрицательных значений;
PРеLU — параметрический вариант с обучаемой «наклонной» частью;
ELU / SELU — сглаженные варианты с экспоненциальным продолжением;
Mish — гладкая альтернатива с мягкой кривой;
GELU — вероятностная нелинейность, стандарт ранних трансформеров;
SwiGLU — текущий стандарт в LLM благодаря gating-механизмам.

Современные трансформеры полностью отказались от РеLU, так как более гладкие активации обеспечивают лучшее качество и устойчивость.

Преимущества и ограничения

Плюс: крайне простая и быстрая.
Плюс: устойчивая на небольших глубинах.
Плюс: порождает разрежённые представления.
Плюс: легко оптимизируется в классических архитектурах.
Минус: проблема «вымирающих нейронов».
Минус: резкая нелинейность ухудшает стабильность глубоких моделей.
Минус: не подходит для современных трансформеров.
Минус: хуже управляет градиентом по сравнению с GELU или SwiGLU.

Связанные термины

Activation function
GELU
Swish
SwiGLU
Feed-forward network
Реsidual connections
Nonlinear activations

Категория термина

Архитектуры моделей

Экосистемы