Activation function: нелинейности в нейросетях

Термин глоссария

Activation function


Activation function — математическая нелинейность, которая задаёт способ преобразования сигналов внутри нейросети и определяет её выразительность.

Определение

Activation function — это операция, применяемая к каждому элементу скрытого представления, которая вводит в модель нелинейность. Без неё нейронная сеть сводится к набору линейных преобразований и теряет способность моделировать сложные зависимости. Нелинейности определяют, какие компоненты сигнала будут усилены, подавлены или преобразованы, и напрямую влияют на глубину, устойчивость и обучаемость модели.

В трансформерах активации используются в FFN-блоках и gated-модулях, формируя одно из ключевых различий между архитектурами разных поколений.

Как работает

Activation function применяется к выходу линейного слоя или проекции. Каждый элемент вектора проходит через скалярную функцию f(x), которая задаёт правила его преобразования.

  • линейная часть — матричное умножение или проекция;
  • нелинейность — активация изменяет форму распределения признаков;
  • градиенты — активация задаёт динамику обучения, сглаживая или усиливая градиенты;
  • стабильность — правильный выбор функции определяет устойчивость глубокой сети;
  • выразительность — сложные зависимости моделируются сочетанием нелинейных преобразований и внимания.

Хотя каждая активация действует точечно, её влияние на архитектуру оказывается системным: она определяет, где модель способна разделять признаки, а где — сохранять гладкость обучения.

Основные виды активаций

Современные модели используют несколько ключевых типов:

  • ReLU — max(0, x); простая, быстрая, но склонна к “вымирающим” нейронам;
  • GELU — вероятностная версия сглаженной ReLU, стандарт в трансформерах предыдущих поколений;
  • Swish — x·σ(x); плавная нелинейность, применяемая в SwiGLU;
  • GLU — A ⊙ σ(B); гейтированная активация с управляемой подачей сигнала;
  • SwiGLU — A ⊙ swish(B); стандарт в современных LLM;
  • ReGLU / GEGLU — вариации GLU с другими нелинейностями;
  • Tanh / sigmoid — используются в гейтовых структурах и рекуррентных модулях;
  • Softplus / Mish — сглаженные нелинейности для устойчивого градиента.

Именно переход от GELU к SwiGLU и родственникам стал одним из ключевых факторов повышения качества в моделях LLaMA-поколения.

Где применяется

  • FFN-блоки трансформеров во всех типах моделей.
  • Gated-блоки (GLU, SwiGLU, GEGLU).
  • Нелинейные проекторы в мультимодальных системах.
  • Рекуррентные архитектуры и gating-структуры.
  • Аудио-, видео- и сенсорные модели.
  • Механизмы нормализации и стабилизации в глубоких сетях.

Практические примеры использования

В крупных языковых моделях активация определяет, насколько плавно модель обучается при больших глубинах. ГеLU использовался в GPT-образных моделях, но с ростом глубины и ширины стал менее устойчив из-за резких переходов в производной.

Замена FFN-блоков на SwiGLU улучшила устойчивость градиента и позволила обучать модели с большим количеством слоёв без деградации качества.

В мультимодальных системах активации управляют преобразованием признаков от изображения, аудио или видео, обеспечивая их согласование с текстовым представлением.

В гейтовых структурах активации определяют пропускную способность канала и регулируют, какие признаки проходят в следующую часть сети.

Почему выбор активации критичен

В глубоких трансформерах именно активация определяет форму распределения скрытых признаков и скорость изменения градиента. Ошибочный выбор приводит к:

  • взрывным активациям — зависанию обучения;
  • затухающим градиентам — невозможности обучать глубокие слои;
  • нестабильности FFN — скачкам значений внутри блока;
  • снижению точности — из-за потери выразительности представлений.

Поэтому современные архитектуры тщательно подбирают нелинейности с учётом глубины, ширины FFN и используемой нормализации.

Вариации и гибридные схемы

В современных моделях активации сочетаются с управляющими модулями:

  • GLU / GEGLU / SwiGLU — комбинированная нелинейность + gating;
  • MoE-FFN — нелинейности внутри экспертных блоков;
  • Residual gating — управление прохождением residual-сигнала;
  • Depth-scaled activations — масштабирование в зависимости от глубины.

Такие схемы позволяют добиться лучшего компромисса между качеством и вычислительной эффективностью.

Преимущества и ограничения

  • Плюс: задают модели нелинейность и выразительность.
  • Плюс: контролируют форму распределения признаков.
  • Плюс: влияют на устойчивость обучения и качество градиента.
  • Плюс: позволяют строить глубокие трансформеры.
  • Минус: неправильный выбор приводит к нестабильности.
  • Минус: часть функций плохо работает в низкой точности (FP16/FP8).
  • Минус: резкие нелинейности ухудшают обучение на больших batch size.
  • Минус: некоторые функции требуют точной инициализации весов.

Связанные термины

  • Feed-forward network
  • GLU
  • SwiGLU
  • GEGLU
  • Residual connections
  • Transformer block
  • Nonlinear activations

Категория термина

Архитектуры моделей