Gated Linear Unit: управляемая активация

Термин глоссария

Gated Linear Unit (GLU)


Gated Linear Unit — проекционный блок с управляющими воротами, который пропускает или подавляет части сигнала для более устойчивых и выразительных представлений.

Определение

Gated Linear Unit (GLU) — это нейронный блок, который разделяет входной вектор на две части: одну трактует как основной сигнал, вторую — как управляющие ворота. Управляющий вектор проходит через сигмоидальную активацию и затем элементно умножается на основной сигнал. В результате модель получает механизм мягкого отбора признаков: ворота усиливают релевантные компоненты и подавляют шумовые.

GLU является фундаментом для множества современных вариаций FFN-блоков, включая GEGLU, SwiGLU и другие формы гейтинга в трансформерных архитектурах.

Как работает

GLU использует простую, но эффективную структуру: входной вектор x подаётся на две независимые линейные проекции. Первая проекция создаёт основной поток информации, вторая — генерирует управляемый вектор, определяющий, какая часть основного сигнала должна пройти дальше.

  • линейная проекция 1 — формирует сигнал A;
  • линейная проекция 2 — формирует управляющий вектор B;
  • сигмоидальная активация — σ(B) определяет ворота;
  • элементное умножение — выход GLU = A ⊙ σ(B);
  • адаптивность — ворота могут регулировать интенсивность сигнала для каждого измерения признаков.

Обобщённая формула GLU:

GLU(x) = (W₁x + b₁) ⊙ σ(W₂x + b₂)

Механизм напоминает работу LSTM-врат, но применяется внутри FFN-блоков трансформеров и работает позиционно.

Где применяется

  • FFN-блоки в трансформерах (GEGLU, SwiGLU, ReGLU и другие).
  • Мультимодальные модели, требующие фильтрации признаков.
  • Видео-трансформеры, где нужно подавлять нерелевантные временные кадры.
  • Аудио-модели с шумными сигналами.
  • Системы распознавания речи и обработки последовательностей.
  • Гибридные архитектуры, комбинирующие attention и gating.

Практические примеры использования

В больших языковых моделях GLU-подобные блоки применяются для повышения устойчивости FFN и улучшения качества обучения. Например, GEGLU и SwiGLU заменили классический ReLU/GeLU FFN в большинстве современных трансформеров благодаря лучшей стабильности градиентов и способности формировать более выразительные представления.

В мультимодальных моделях GLU применяется для фильтрации признаков из изображения, аудио или сенсорных данных: ворота блокируют шумовые элементы, оставляя только значимую информацию для attention-блоков.

В видео-трансформерах GLU смягчает резкие скачки значений и позволяет модели выбирать релевантные фрагменты, что улучшает обработку длинных временных последовательностей.

В ASR-системах (speech models) gating уменьшает влияние фонового шума, повышая устойчивость выхода.

Расширенные варианты GLU

GLU породил целое семейство гейтовых FFN-блоков:

  • ReGLU — замена сигмоиды на ReLU;
  • GEGLU — использование GELU как gating-функции;
  • SwiGLU — наиболее распространённая форма, используемая в LLaMA и других мегамоделях;
  • GLU-MLP — многоуровневые гейтовые FFN-блоки;
  • Hybrid gating — смешанные схемы с несколькими управляющими потоками.

Основная цель всех вариаций — улучшить способность модели к извлечению структурных зависимостей, сохранив эффективность вычислений.

Преимущества и ограничения

  • Плюс: фильтрация шумовых признаков.
  • Плюс: усиление информативных элементов скрытого представления.
  • Плюс: улучшенная устойчивость обучения по сравнению с обычным FFN.
  • Плюс: основа для современных FFN-вариантов (SwiGLU, GEGLU).
  • Минус: дополнительные параметры.
  • Минус: немного увеличенное время вычислений.
  • Минус: необходимость корректной инициализации для стабильности.
  • Минус: чувствительность gating-вектора к распределению входа.

Связанные термины

  • Feed-forward network
  • SwiGLU
  • GEGLU
  • Gated attention
  • Residual connections
  • Transformer block
  • Nonlinear activations

Категория термина

Архитектуры моделей