Термин глоссария

Multi-head attention

Multi-head attention — механизм, который разделяет внимание на параллельные головы, позволяя модели извлекать несколько типов зависимостей одновременно.

Определение

Multi-head attention — ключевой механизм трансформеров, в котором внимание вычисляется не одним набором Q/K/V, а несколькими параллельными «головами». Каждая голова работает в собственном подпространстве признаков и концентрируется на своём типе зависимостей: локальных, глобальных, синтаксических, семантических, позиционных или модальных.

После вычисления каждая голова формирует собственный attention-output, а затем результаты объединяются в единый вектор. Благодаря этому архитектура получает возможность анализировать разные аспекты входной последовательности одновременно.

Как работает

Multi-head attention состоит из нескольких независимых attention-блоков, каждый из которых работает со своим набором проекций Q, K и V.

разделение на подпространства — входной вектор проектируется в h различных пространств меньшей размерности;
параллельные Q/K/V — каждая голова вычисляет собственные матрицы запросов, ключей и значений;
softmax-внимание — каждая голова строит независимое распределение внимания;
сборка — выходы голов конкатенируются и проецируются в исходную размерность d_model;
residual + norm — итог включается в трансформерный блок через residual-путь и нормализацию.

Итоговая формула выглядит так:

MultiHead(Q, K, V) = Concat(head₁,…,headₕ) · W_O

где каждая headᵢ = Attention(QW_Q,i, KW_K,i, VW_V,i).

Что дают головы внимания

Разделение внимания на несколько голов позволяет модели:

учитывать разные типы зависимостей — синтаксис, семантика, структура;
перекрывать локальные и глобальные связи — близкие токены, дальние токены, мотивы;
создавать устойчивые представления — разные головы компенсируют ошибки друг друга;
извлекать многоуровневые закономерности — параллельное изучение нескольких аспектов данных;
повышать пропускную способность attention — одновременные вычисления в нескольких подпространствах.

Эти свойства делают multi-head attention фундаментом трансформерной архитектуры.

Где применяется

LLM — обработка текста, генерация, анализ контекста.
Vision Transformers — анализ изображений через патчи.
Видео-трансформеры — объединение temporal + spatial зависимостей.
Аудио-модели и ASR — структурирование акустических признаков.
Мультимодальные модели — согласование текста, изображений и аудио.
Encoder–decoder архитектуры — перевод и трансформация данных.

Практические примеры использования

В языковых моделях разные головы могут отвечать за разные структурные зависимости. Например: одна голова отслеживает пару «прилагательное–существительное», другая — длинные синтаксические дуги, третья — связи между абзацами.

В Vision Transformers головы распределяются между разными пространственными паттернами: локальные формы, текстуры, объекты и крупные структуры.

В мультимодальных моделях некоторые головы работают в cross-attention и учатся сопоставлять текст и изображение: слова — с объектами; фразы — с группами объектов; предложения — с общей сценой.

В видео-моделях часть голов концентрируется на временных зависимостях, а часть — на пространственных, обеспечивая согласованную обработку ролика.

Вариации и архитектурные особенности

Multi-head внимание имеет множество разновидностей:

multi-query attention — общие K/V для всех голов;
grouped-query attention — несколько групп голов делят общие K/V;
gated attention — управляющие ворота фильтруют выход голов;
sparse multi-head attention — разрежённость внутри каждой головы;
multi-head cross-attention — взаимодействие между модальностями;
dynamic attention — головы адаптивно меняют зону фокуса;
low-rank attention — приближение внимания через низкоранговые проекции.

Современные LLM часто используют комбинации multi-head и MQA/GQA, чтобы уменьшить VRAM при длинных контекстах.

Преимущества и ограничения

Плюс: параллельная обработка разных типов зависимостей.
Плюс: высокая выразительность по сравнению с одно-головым вниманием.
Плюс: устойчивость благодаря распределению информации между головами.
Плюс: естественная адаптация к мультимодальным данным.
Минус: значительные вычисления при большом числе голов.
Минус: избыточность — многие головы могут становиться «мёртвыми».
Минус: сложность интерпретации поведения каждой головы.
Минус: необходимость специальных оптимизаций при длинном контексте.

Связанные термины

Self-attention
Cross-attention
Scaled dot-product attention
Multi-query attention
Grouped-query attention
Attention sparsity
Transformer block

Категория термина

Архитектуры моделей

Экосистемы