Attention head: как модели выделяют разные типы связей

Термин глоссария

Attention head


Attention head — один из ключевых элементов self-attention. Он позволяет модели «смотреть» на текст сразу под разными углами: анализировать грамматику, смысл, порядок слов, отношения между объектами.

Короткое определение

Attention head — это отдельный канал внимания внутри self-attention, который отслеживает свой тип связей между токенами. В модели таких голов обычно множество, и каждая отвечает за собственный аспект текста.

Подробное объяснение

Self-attention вычисляет важность каждого токена по отношению к другим. Но одна «голова» внимания видит только один тип зависимостей. Чтобы модель могла улавливать сложные паттерны, self-attention используют в формате multi-head.

Каждая attention head обучается на свою задачу: — одна обнаруживает синтаксис, — другая отслеживает тему, — третья учитывает дальние связи, — четвёртая отвечает за местоимения и ссылки на них.

Все attention heads работают параллельно. После анализа их результаты объединяются, и модель получает более полное и многогранное понимание структуры текста.

Именно множественные attention heads позволяют моделям понимать сложные предложения, удерживать дальние зависимости и строить логичные цепочки рассуждений.

В современных LLM — GPT, Claude, Llama, YandexGPT, GigaChat — количество голов может достигать сотен, что напрямую влияет на качество reasoning и глубину контекста.

Примеры использования

  • Обработка местоимений и связей между ними.
  • Выделение важных слов в длинных фразах.
  • Понимание структуры предложения.
  • Анализ больших документов с множеством контекстных блоков.
  • Удержание смысловых цепочек на длинных дистанциях.

Связанные термины

  • Self-attention
  • Multi-head Attention
  • Transformer
  • Эмбеддинги
  • LLM

Категория термина

Архитектуры моделей