Attention head — один из ключевых элементов self-attention. Он позволяет модели «смотреть» на текст сразу под разными углами: анализировать грамматику, смысл, порядок слов, отношения между объектами.
Короткое определение
Attention head — это отдельный канал внимания внутри self-attention, который отслеживает свой тип связей между токенами. В модели таких голов обычно множество, и каждая отвечает за собственный аспект текста.
Подробное объяснение
Self-attention вычисляет важность каждого токена по отношению к другим. Но одна «голова» внимания видит только один тип зависимостей. Чтобы модель могла улавливать сложные паттерны, self-attention используют в формате multi-head.
Каждая attention head обучается на свою задачу: — одна обнаруживает синтаксис, — другая отслеживает тему, — третья учитывает дальние связи, — четвёртая отвечает за местоимения и ссылки на них.
Все attention heads работают параллельно. После анализа их результаты объединяются, и модель получает более полное и многогранное понимание структуры текста.
Именно множественные attention heads позволяют моделям понимать сложные предложения, удерживать дальние зависимости и строить логичные цепочки рассуждений.
В современных LLM — GPT, Claude, Llama, YandexGPT, GigaChat — количество голов может достигать сотен, что напрямую влияет на качество reasoning и глубину контекста.
Примеры использования
- Обработка местоимений и связей между ними.
- Выделение важных слов в длинных фразах.
- Понимание структуры предложения.
- Анализ больших документов с множеством контекстных блоков.
- Удержание смысловых цепочек на длинных дистанциях.
Связанные термины
- Self-attention
- Multi-head Attention
- Transformer
- Эмбеддинги
- LLM