Activation function — математическая нелинейность, которая задаёт способ преобразования сигналов внутри нейросети и определяет её выразительность.
Определение
Activation function — это операция, применяемая к каждому элементу скрытого представления, которая вводит в модель нелинейность. Без неё нейронная сеть сводится к набору линейных преобразований и теряет способность моделировать сложные зависимости. Нелинейности определяют, какие компоненты сигнала будут усилены, подавлены или преобразованы, и напрямую влияют на глубину, устойчивость и обучаемость модели.
В трансформерах активации используются в FFN-блоках и gated-модулях, формируя одно из ключевых различий между архитектурами разных поколений.
Как работает
Activation function применяется к выходу линейного слоя или проекции. Каждый элемент вектора проходит через скалярную функцию f(x), которая задаёт правила его преобразования.
- линейная часть — матричное умножение или проекция;
- нелинейность — активация изменяет форму распределения признаков;
- градиенты — активация задаёт динамику обучения, сглаживая или усиливая градиенты;
- стабильность — правильный выбор функции определяет устойчивость глубокой сети;
- выразительность — сложные зависимости моделируются сочетанием нелинейных преобразований и внимания.
Хотя каждая активация действует точечно, её влияние на архитектуру оказывается системным: она определяет, где модель способна разделять признаки, а где — сохранять гладкость обучения.
Основные виды активаций
Современные модели используют несколько ключевых типов:
- ReLU — max(0, x); простая, быстрая, но склонна к “вымирающим” нейронам;
- GELU — вероятностная версия сглаженной ReLU, стандарт в трансформерах предыдущих поколений;
- Swish — x·σ(x); плавная нелинейность, применяемая в SwiGLU;
- GLU — A ⊙ σ(B); гейтированная активация с управляемой подачей сигнала;
- SwiGLU — A ⊙ swish(B); стандарт в современных LLM;
- ReGLU / GEGLU — вариации GLU с другими нелинейностями;
- Tanh / sigmoid — используются в гейтовых структурах и рекуррентных модулях;
- Softplus / Mish — сглаженные нелинейности для устойчивого градиента.
Именно переход от GELU к SwiGLU и родственникам стал одним из ключевых факторов повышения качества в моделях LLaMA-поколения.
Где применяется
- FFN-блоки трансформеров во всех типах моделей.
- Gated-блоки (GLU, SwiGLU, GEGLU).
- Нелинейные проекторы в мультимодальных системах.
- Рекуррентные архитектуры и gating-структуры.
- Аудио-, видео- и сенсорные модели.
- Механизмы нормализации и стабилизации в глубоких сетях.
Практические примеры использования
В крупных языковых моделях активация определяет, насколько плавно модель обучается при больших глубинах. ГеLU использовался в GPT-образных моделях, но с ростом глубины и ширины стал менее устойчив из-за резких переходов в производной.
Замена FFN-блоков на SwiGLU улучшила устойчивость градиента и позволила обучать модели с большим количеством слоёв без деградации качества.
В мультимодальных системах активации управляют преобразованием признаков от изображения, аудио или видео, обеспечивая их согласование с текстовым представлением.
В гейтовых структурах активации определяют пропускную способность канала и регулируют, какие признаки проходят в следующую часть сети.
Почему выбор активации критичен
В глубоких трансформерах именно активация определяет форму распределения скрытых признаков и скорость изменения градиента. Ошибочный выбор приводит к:
- взрывным активациям — зависанию обучения;
- затухающим градиентам — невозможности обучать глубокие слои;
- нестабильности FFN — скачкам значений внутри блока;
- снижению точности — из-за потери выразительности представлений.
Поэтому современные архитектуры тщательно подбирают нелинейности с учётом глубины, ширины FFN и используемой нормализации.
Вариации и гибридные схемы
В современных моделях активации сочетаются с управляющими модулями:
- GLU / GEGLU / SwiGLU — комбинированная нелинейность + gating;
- MoE-FFN — нелинейности внутри экспертных блоков;
- Residual gating — управление прохождением residual-сигнала;
- Depth-scaled activations — масштабирование в зависимости от глубины.
Такие схемы позволяют добиться лучшего компромисса между качеством и вычислительной эффективностью.
Преимущества и ограничения
- Плюс: задают модели нелинейность и выразительность.
- Плюс: контролируют форму распределения признаков.
- Плюс: влияют на устойчивость обучения и качество градиента.
- Плюс: позволяют строить глубокие трансформеры.
- Минус: неправильный выбор приводит к нестабильности.
- Минус: часть функций плохо работает в низкой точности (FP16/FP8).
- Минус: резкие нелинейности ухудшают обучение на больших batch size.
- Минус: некоторые функции требуют точной инициализации весов.
Связанные термины
- Feed-forward network
- GLU
- SwiGLU
- GEGLU
- Residual connections
- Transformer block
- Nonlinear activations