Термин глоссария

Gated Linear Unit (GLU)

Gated Linear Unit — проекционный блок с управляющими воротами, который пропускает или подавляет части сигнала для более устойчивых и выразительных представлений.

Определение

Gated Linear Unit (GLU) — это нейронный блок, который разделяет входной вектор на две части: одну трактует как основной сигнал, вторую — как управляющие ворота. Управляющий вектор проходит через сигмоидальную активацию и затем элементно умножается на основной сигнал. В результате модель получает механизм мягкого отбора признаков: ворота усиливают релевантные компоненты и подавляют шумовые.

GLU является фундаментом для множества современных вариаций FFN-блоков, включая GEGLU, SwiGLU и другие формы гейтинга в трансформерных архитектурах.

Как работает

GLU использует простую, но эффективную структуру: входной вектор x подаётся на две независимые линейные проекции. Первая проекция создаёт основной поток информации, вторая — генерирует управляемый вектор, определяющий, какая часть основного сигнала должна пройти дальше.

линейная проекция 1 — формирует сигнал A;
линейная проекция 2 — формирует управляющий вектор B;
сигмоидальная активация — σ(B) определяет ворота;
элементное умножение — выход GLU = A ⊙ σ(B);
адаптивность — ворота могут регулировать интенсивность сигнала для каждого измерения признаков.

Обобщённая формула GLU:

GLU(x) = (W₁x + b₁) ⊙ σ(W₂x + b₂)

Механизм напоминает работу LSTM-врат, но применяется внутри FFN-блоков трансформеров и работает позиционно.

Где применяется

FFN-блоки в трансформерах (GEGLU, SwiGLU, РеGLU и другие).
Мультимодальные модели, требующие фильтрации признаков.
Видео-трансформеры, где нужно подавлять нерелевантные временные кадры.
Аудио-модели с шумными сигналами.
Системы распознавания речи и обработки последовательностей.
Гибридные архитектуры, комбинирующие attention и gating.

Практические примеры использования

В больших языковых моделях GLU-подобные блоки применяются для повышения устойчивости FFN и улучшения качества обучения. Например, GEGLU и SwiGLU заменили классический РеLU/GeLU FFN в большинстве современных трансформеров благодаря лучшей стабильности градиентов и способности формировать более выразительные представления.

В мультимодальных моделях GLU применяется для фильтрации признаков из изображения, аудио или сенсорных данных: ворота блокируют шумовые элементы, оставляя только значимую информацию для attention-блоков.

В видео-трансформерах GLU смягчает резкие скачки значений и позволяет модели выбирать релевантные фрагменты, что улучшает обработку длинных временных последовательностей.

В ASR-системах (speech models) gating уменьшает влияние фонового шума, повышая устойчивость выхода.

Расширенные варианты GLU

GLU породил целое семейство гейтовых FFN-блоков:

РеGLU — замена сигмоиды на РеLU;
GEGLU — использование GELU как gating-функции;
SwiGLU — наиболее распространённая форма, используемая в LLaMA и других мегамоделях;
GLU-MLP — многоуровневые гейтовые FFN-блоки;
Hybrid gating — смешанные схемы с несколькими управляющими потоками.

Основная цель всех вариаций — улучшить способность модели к извлечению структурных зависимостей, сохранив эффективность вычислений.

Преимущества и ограничения

Плюс: фильтрация шумовых признаков.
Плюс: усиление информативных элементов скрытого представления.
Плюс: улучшенная устойчивость обучения по сравнению с обычным FFN.
Плюс: основа для современных FFN-вариантов (SwiGLU, GEGLU).
Минус: дополнительные параметры.
Минус: немного увеличенное время вычислений.
Минус: необходимость корректной инициализации для стабильности.
Минус: чувствительность gating-вектора к распределению входа.

Связанные термины

Feed-forward network
SwiGLU
GEGLU
Gated attention
Реsidual connections
Transformer block
Nonlinear activations

Категория термина

Архитектуры моделей

Экосистемы