Gated Linear Unit — проекционный блок с управляющими воротами, который пропускает или подавляет части сигнала для более устойчивых и выразительных представлений.
Определение
Gated Linear Unit (GLU) — это нейронный блок, который разделяет входной вектор на две части: одну трактует как основной сигнал, вторую — как управляющие ворота. Управляющий вектор проходит через сигмоидальную активацию и затем элементно умножается на основной сигнал. В результате модель получает механизм мягкого отбора признаков: ворота усиливают релевантные компоненты и подавляют шумовые.
GLU является фундаментом для множества современных вариаций FFN-блоков, включая GEGLU, SwiGLU и другие формы гейтинга в трансформерных архитектурах.
Как работает
GLU использует простую, но эффективную структуру: входной вектор x подаётся на две независимые линейные проекции. Первая проекция создаёт основной поток информации, вторая — генерирует управляемый вектор, определяющий, какая часть основного сигнала должна пройти дальше.
- линейная проекция 1 — формирует сигнал A;
- линейная проекция 2 — формирует управляющий вектор B;
- сигмоидальная активация — σ(B) определяет ворота;
- элементное умножение — выход GLU = A ⊙ σ(B);
- адаптивность — ворота могут регулировать интенсивность сигнала для каждого измерения признаков.
Обобщённая формула GLU:
GLU(x) = (W₁x + b₁) ⊙ σ(W₂x + b₂)
Механизм напоминает работу LSTM-врат, но применяется внутри FFN-блоков трансформеров и работает позиционно.
Где применяется
- FFN-блоки в трансформерах (GEGLU, SwiGLU, ReGLU и другие).
- Мультимодальные модели, требующие фильтрации признаков.
- Видео-трансформеры, где нужно подавлять нерелевантные временные кадры.
- Аудио-модели с шумными сигналами.
- Системы распознавания речи и обработки последовательностей.
- Гибридные архитектуры, комбинирующие attention и gating.
Практические примеры использования
В больших языковых моделях GLU-подобные блоки применяются для повышения устойчивости FFN и улучшения качества обучения. Например, GEGLU и SwiGLU заменили классический ReLU/GeLU FFN в большинстве современных трансформеров благодаря лучшей стабильности градиентов и способности формировать более выразительные представления.
В мультимодальных моделях GLU применяется для фильтрации признаков из изображения, аудио или сенсорных данных: ворота блокируют шумовые элементы, оставляя только значимую информацию для attention-блоков.
В видео-трансформерах GLU смягчает резкие скачки значений и позволяет модели выбирать релевантные фрагменты, что улучшает обработку длинных временных последовательностей.
В ASR-системах (speech models) gating уменьшает влияние фонового шума, повышая устойчивость выхода.
Расширенные варианты GLU
GLU породил целое семейство гейтовых FFN-блоков:
- ReGLU — замена сигмоиды на ReLU;
- GEGLU — использование GELU как gating-функции;
- SwiGLU — наиболее распространённая форма, используемая в LLaMA и других мегамоделях;
- GLU-MLP — многоуровневые гейтовые FFN-блоки;
- Hybrid gating — смешанные схемы с несколькими управляющими потоками.
Основная цель всех вариаций — улучшить способность модели к извлечению структурных зависимостей, сохранив эффективность вычислений.
Преимущества и ограничения
- Плюс: фильтрация шумовых признаков.
- Плюс: усиление информативных элементов скрытого представления.
- Плюс: улучшенная устойчивость обучения по сравнению с обычным FFN.
- Плюс: основа для современных FFN-вариантов (SwiGLU, GEGLU).
- Минус: дополнительные параметры.
- Минус: немного увеличенное время вычислений.
- Минус: необходимость корректной инициализации для стабильности.
- Минус: чувствительность gating-вектора к распределению входа.
Связанные термины
- Feed-forward network
- SwiGLU
- GEGLU
- Gated attention
- Residual connections
- Transformer block
- Nonlinear activations