Термин глоссария

Attention head

Attention head — один из ключевых элементов self-attention. Он позволяет модели «смотреть» на текст сразу под разными углами: анализировать грамматику, смысл, порядок слов, отношения между объектами.

Короткое определение

Attention head — это отдельный канал внимания внутри self-attention, который отслеживает свой тип связей между токенами. В модели таких голов обычно множество, и каждая отвечает за собственный аспект текста.

Подробное объяснение

Self-attention вычисляет важность каждого токена по отношению к другим. Но одна «голова» внимания видит только один тип зависимостей. Чтобы модель могла улавливать сложные паттерны, self-attention используют в формате multi-head.

Каждая attention head обучается на свою задачу: — одна обнаруживает синтаксис, — другая отслеживает тему, — третья учитывает дальние связи, — четвёртая отвечает за местоимения и ссылки на них.

Все attention heads работают параллельно. После анализа их результаты объединяются, и модель получает более полное и многогранное понимание структуры текста.

Именно множественные attention heads позволяют моделям понимать сложные предложения, удерживать дальние зависимости и строить логичные цепочки рассуждений.

В современных LLM — GPT, Claude, Llama, YandexGPT, GigaChat — количество голов может достигать сотен, что напрямую влияет на качество reasoning и глубину контекста.

Примеры использования

Обработка местоимений и связей между ними.
Выделение важных слов в длинных фразах.
Понимание структуры предложения.
Анализ больших документов с множеством контекстных блоков.
Удержание смысловых цепочек на длинных дистанциях.

Связанные термины

Self-attention
Multi-head Attention
Transformer
Эмбеддинги
LLM

Категория термина

Архитектуры моделей

Экосистемы