Multi-head attention — механизм, который разделяет внимание на параллельные головы, позволяя модели извлекать несколько типов зависимостей одновременно.
Определение
Multi-head attention — ключевой механизм трансформеров, в котором внимание вычисляется не одним набором Q/K/V, а несколькими параллельными «головами». Каждая голова работает в собственном подпространстве признаков и концентрируется на своём типе зависимостей: локальных, глобальных, синтаксических, семантических, позиционных или модальных.
После вычисления каждая голова формирует собственный attention-output, а затем результаты объединяются в единый вектор. Благодаря этому архитектура получает возможность анализировать разные аспекты входной последовательности одновременно.
Как работает
Multi-head attention состоит из нескольких независимых attention-блоков, каждый из которых работает со своим набором проекций Q, K и V.
- разделение на подпространства — входной вектор проектируется в h различных пространств меньшей размерности;
- параллельные Q/K/V — каждая голова вычисляет собственные матрицы запросов, ключей и значений;
- softmax-внимание — каждая голова строит независимое распределение внимания;
- сборка — выходы голов конкатенируются и проецируются в исходную размерность dmodel;
- residual + norm — итог включается в трансформерный блок через residual-путь и нормализацию.
Итоговая формула выглядит так:
MultiHead(Q, K, V) = Concat(head₁,…,headₕ) · WO
где каждая headᵢ = Attention(QWQ,i, KWK,i, VWV,i).
Что дают головы внимания
Разделение внимания на несколько голов позволяет модели:
- учитывать разные типы зависимостей — синтаксис, семантика, структура;
- перекрывать локальные и глобальные связи — близкие токены, дальние токены, мотивы;
- создавать устойчивые представления — разные головы компенсируют ошибки друг друга;
- извлекать многоуровневые закономерности — параллельное изучение нескольких аспектов данных;
- повышать пропускную способность attention — одновременные вычисления в нескольких подпространствах.
Эти свойства делают multi-head attention фундаментом трансформерной архитектуры.
Где применяется
- LLM — обработка текста, генерация, анализ контекста.
- Vision Transformers — анализ изображений через патчи.
- Видео-трансформеры — объединение temporal + spatial зависимостей.
- Аудио-модели и ASR — структурирование акустических признаков.
- Мультимодальные модели — согласование текста, изображений и аудио.
- Encoder–decoder архитектуры — перевод и трансформация данных.
Практические примеры использования
В языковых моделях разные головы могут отвечать за разные структурные зависимости. Например: одна голова отслеживает пару «прилагательное–существительное», другая — длинные синтаксические дуги, третья — связи между абзацами.
В Vision Transformers головы распределяются между разными пространственными паттернами: локальные формы, текстуры, объекты и крупные структуры.
В мультимодальных моделях некоторые головы работают в cross-attention и учатся сопоставлять текст и изображение: слова — с объектами; фразы — с группами объектов; предложения — с общей сценой.
В видео-моделях часть голов концентрируется на временных зависимостях, а часть — на пространственных, обеспечивая согласованную обработку ролика.
Вариации и архитектурные особенности
Multi-head внимание имеет множество разновидностей:
- multi-query attention — общие K/V для всех голов;
- grouped-query attention — несколько групп голов делят общие K/V;
- gated attention — управляющие ворота фильтруют выход голов;
- sparse multi-head attention — разрежённость внутри каждой головы;
- multi-head cross-attention — взаимодействие между модальностями;
- dynamic attention — головы адаптивно меняют зону фокуса;
- low-rank attention — приближение внимания через низкоранговые проекции.
Современные LLM часто используют комбинации multi-head и MQA/GQA, чтобы уменьшить VRAM при длинных контекстах.
Преимущества и ограничения
- Плюс: параллельная обработка разных типов зависимостей.
- Плюс: высокая выразительность по сравнению с одно-головым вниманием.
- Плюс: устойчивость благодаря распределению информации между головами.
- Плюс: естественная адаптация к мультимодальным данным.
- Минус: значительные вычисления при большом числе голов.
- Минус: избыточность — многие головы могут становиться «мёртвыми».
- Минус: сложность интерпретации поведения каждой головы.
- Минус: необходимость специальных оптимизаций при длинном контексте.
Связанные термины
- Self-attention
- Cross-attention
- Scaled dot-product attention
- Multi-query attention
- Grouped-query attention
- Attention sparsity
- Transformer block