Multi-head attention: многоканальное внимание

Термин глоссария

Multi-head attention


Multi-head attention — механизм, который разделяет внимание на параллельные головы, позволяя модели извлекать несколько типов зависимостей одновременно.

Определение

Multi-head attention — ключевой механизм трансформеров, в котором внимание вычисляется не одним набором Q/K/V, а несколькими параллельными «головами». Каждая голова работает в собственном подпространстве признаков и концентрируется на своём типе зависимостей: локальных, глобальных, синтаксических, семантических, позиционных или модальных.

После вычисления каждая голова формирует собственный attention-output, а затем результаты объединяются в единый вектор. Благодаря этому архитектура получает возможность анализировать разные аспекты входной последовательности одновременно.

Как работает

Multi-head attention состоит из нескольких независимых attention-блоков, каждый из которых работает со своим набором проекций Q, K и V.

  • разделение на подпространства — входной вектор проектируется в h различных пространств меньшей размерности;
  • параллельные Q/K/V — каждая голова вычисляет собственные матрицы запросов, ключей и значений;
  • softmax-внимание — каждая голова строит независимое распределение внимания;
  • сборка — выходы голов конкатенируются и проецируются в исходную размерность dmodel;
  • residual + norm — итог включается в трансформерный блок через residual-путь и нормализацию.

Итоговая формула выглядит так:

MultiHead(Q, K, V) = Concat(head₁,…,headₕ) · WO

где каждая headᵢ = Attention(QWQ,i, KWK,i, VWV,i).

Что дают головы внимания

Разделение внимания на несколько голов позволяет модели:

  • учитывать разные типы зависимостей — синтаксис, семантика, структура;
  • перекрывать локальные и глобальные связи — близкие токены, дальние токены, мотивы;
  • создавать устойчивые представления — разные головы компенсируют ошибки друг друга;
  • извлекать многоуровневые закономерности — параллельное изучение нескольких аспектов данных;
  • повышать пропускную способность attention — одновременные вычисления в нескольких подпространствах.

Эти свойства делают multi-head attention фундаментом трансформерной архитектуры.

Где применяется

  • LLM — обработка текста, генерация, анализ контекста.
  • Vision Transformers — анализ изображений через патчи.
  • Видео-трансформеры — объединение temporal + spatial зависимостей.
  • Аудио-модели и ASR — структурирование акустических признаков.
  • Мультимодальные модели — согласование текста, изображений и аудио.
  • Encoder–decoder архитектуры — перевод и трансформация данных.

Практические примеры использования

В языковых моделях разные головы могут отвечать за разные структурные зависимости. Например: одна голова отслеживает пару «прилагательное–существительное», другая — длинные синтаксические дуги, третья — связи между абзацами.

В Vision Transformers головы распределяются между разными пространственными паттернами: локальные формы, текстуры, объекты и крупные структуры.

В мультимодальных моделях некоторые головы работают в cross-attention и учатся сопоставлять текст и изображение: слова — с объектами; фразы — с группами объектов; предложения — с общей сценой.

В видео-моделях часть голов концентрируется на временных зависимостях, а часть — на пространственных, обеспечивая согласованную обработку ролика.

Вариации и архитектурные особенности

Multi-head внимание имеет множество разновидностей:

  • multi-query attention — общие K/V для всех голов;
  • grouped-query attention — несколько групп голов делят общие K/V;
  • gated attention — управляющие ворота фильтруют выход голов;
  • sparse multi-head attention — разрежённость внутри каждой головы;
  • multi-head cross-attention — взаимодействие между модальностями;
  • dynamic attention — головы адаптивно меняют зону фокуса;
  • low-rank attention — приближение внимания через низкоранговые проекции.

Современные LLM часто используют комбинации multi-head и MQA/GQA, чтобы уменьшить VRAM при длинных контекстах.

Преимущества и ограничения

  • Плюс: параллельная обработка разных типов зависимостей.
  • Плюс: высокая выразительность по сравнению с одно-головым вниманием.
  • Плюс: устойчивость благодаря распределению информации между головами.
  • Плюс: естественная адаптация к мультимодальным данным.
  • Минус: значительные вычисления при большом числе голов.
  • Минус: избыточность — многие головы могут становиться «мёртвыми».
  • Минус: сложность интерпретации поведения каждой головы.
  • Минус: необходимость специальных оптимизаций при длинном контексте.

Связанные термины

  • Self-attention
  • Cross-attention
  • Scaled dot-product attention
  • Multi-query attention
  • Grouped-query attention
  • Attention sparsity
  • Transformer block

Категория термина

Архитектуры моделей