Термин глоссария

Activation function

Activation function — математическая нелинейность, которая задаёт способ преобразования сигналов внутри нейросети и определяет её выразительность.

Определение

Activation function — это операция, применяемая к каждому элементу скрытого представления, которая вводит в модель нелинейность. Без неё нейронная сеть сводится к набору линейных преобразований и теряет способность моделировать сложные зависимости. Нелинейности определяют, какие компоненты сигнала будут усилены, подавлены или преобразованы, и напрямую влияют на глубину, устойчивость и обучаемость модели.

В трансформерах активации используются в FFN-блоках и gated-модулях, формируя одно из ключевых различий между архитектурами разных поколений.

Как работает

Activation function применяется к выходу линейного слоя или проекции. Каждый элемент вектора проходит через скалярную функцию f(x), которая задаёт правила его преобразования.

линейная часть — матричное умножение или проекция;
нелинейность — активация изменяет форму распределения признаков;
градиенты — активация задаёт динамику обучения, сглаживая или усиливая градиенты;
стабильность — правильный выбор функции определяет устойчивость глубокой сети;
выразительность — сложные зависимости моделируются сочетанием нелинейных преобразований и внимания.

Хотя каждая активация действует точечно, её влияние на архитектуру оказывается системным: она определяет, где модель способна разделять признаки, а где — сохранять гладкость обучения.

Основные виды активаций

Современные модели используют несколько ключевых типов:

РеLU — max(0, x); простая, быстрая, но склонна к “вымирающим” нейронам;
GELU — вероятностная версия сглаженной РеLU, стандарт в трансформерах предыдущих поколений;
Swish — x·σ(x); плавная нелинейность, применяемая в SwiGLU;
GLU — A ⊙ σ(B); гейтированная активация с управляемой подачей сигнала;
SwiGLU — A ⊙ swish(B); стандарт в современных LLM;
РеGLU / GEGLU — вариации GLU с другими нелинейностями;
Tanh / sigmoid — используются в гейтовых структурах и рекуррентных модулях;
Softplus / Mish — сглаженные нелинейности для устойчивого градиента.

Именно переход от GELU к SwiGLU и родственникам стал одним из ключевых факторов повышения качества в моделях LLaMA-поколения.

Где применяется

FFN-блоки трансформеров во всех типах моделей.
Gated-блоки (GLU, SwiGLU, GEGLU).
Нелинейные проекторы в мультимодальных системах.
Рекуррентные архитектуры и gating-структуры.
Аудио-, видео- и сенсорные модели.
Механизмы нормализации и стабилизации в глубоких сетях.

Практические примеры использования

В крупных языковых моделях активация определяет, насколько плавно модель обучается при больших глубинах. ГеLU использовался в GPT-образных моделях, но с ростом глубины и ширины стал менее устойчив из-за резких переходов в производной.

Замена FFN-блоков на SwiGLU улучшила устойчивость градиента и позволила обучать модели с большим количеством слоёв без деградации качества.

В мультимодальных системах активации управляют преобразованием признаков от изображения, аудио или видео, обеспечивая их согласование с текстовым представлением.

В гейтовых структурах активации определяют пропускную способность канала и регулируют, какие признаки проходят в следующую часть сети.

Почему выбор активации критичен

В глубоких трансформерах именно активация определяет форму распределения скрытых признаков и скорость изменения градиента. Ошибочный выбор приводит к:

взрывным активациям — зависанию обучения;
затухающим градиентам — невозможности обучать глубокие слои;
нестабильности FFN — скачкам значений внутри блока;
снижению точности — из-за потери выразительности представлений.

Поэтому современные архитектуры тщательно подбирают нелинейности с учётом глубины, ширины FFN и используемой нормализации.

Вариации и гибридные схемы

В современных моделях активации сочетаются с управляющими модулями:

GLU / GEGLU / SwiGLU — комбинированная нелинейность + gating;
MoE-FFN — нелинейности внутри экспертных блоков;
Реsidual gating — управление прохождением residual-сигнала;
Depth-scaled activations — масштабирование в зависимости от глубины.

Такие схемы позволяют добиться лучшего компромисса между качеством и вычислительной эффективностью.

Преимущества и ограничения

Плюс: задают модели нелинейность и выразительность.
Плюс: контролируют форму распределения признаков.
Плюс: влияют на устойчивость обучения и качество градиента.
Плюс: позволяют строить глубокие трансформеры.
Минус: неправильный выбор приводит к нестабильности.
Минус: часть функций плохо работает в низкой точности (FP16/FP8).
Минус: резкие нелинейности ухудшают обучение на больших batch size.
Минус: некоторые функции требуют точной инициализации весов.

Связанные термины

Feed-forward network
GLU
SwiGLU
GEGLU
Реsidual connections
Transformer block
Nonlinear activations

Категория термина

Архитектуры моделей

Экосистемы