Термин глоссария

Self-attention

Self-attention стал ключевым механизмом, который сделал возможным появление современных языковых моделей. Он позволяет нейросети анализировать текст не линейно, а с пониманием того, какие слова влияют друг на друга в любой точке предложения.

Короткое определение

Self-attention — это механизм, который вычисляет, насколько каждый токен в тексте важен для остальных. Благодаря ему модель может учитывать долгие зависимости, правильно интерпретировать контекст и формировать точные выводы.

Подробное объяснение

В традиционных нейросетях текст обрабатывался последовательно: слово за словом, без возможности гибко оценить связи между удалёнными фрагментами. Это мешало моделям понимать сложные конструкции, длинные предложения и контекст за пределами пары строк.

Механизм self-attention решает эту проблему. Он позволяет модели «смотреть» на весь текст одновременно и определять, какие части помогают понять текущий токен. Например, в фразе «компания объявила результаты, и они превзошли прогноз» модель должна понять, что «они» относится к «результатам», а не к «компании».

Self-attention работает через три векторных набора: Query, Key и Value. Модель сравнивает Query одного токена с Key всех других токенов, определяет степень важности и формирует итоговое представление через Value. Этот процесс повторяется для всего текста.

Чтобы усилить эффект, используются многоheaded attention — несколько параллельных «голов», каждая из которых ищет свои типы связей: грамматику, смысловые связи, порядок слов или тематические группы.

Именно self-attention стал основой архитектуры Transformer, которая и дала толчок развитию LLM: GPT, Claude, Llama и других. Благодаря ему модели могут работать с длинным контекстом и понимать сложные фрагменты текста лучше, чем предыдущие подходы.

В русскоязычных системах — YandexGPT, GigaChat, VK AI — self-attention играет ту же ключевую роль. Он помогает моделям разбирать грамматику русского языка, где важно учитывать окончания, порядок слов и длинные зависимости между частями предложения.

Этот механизм делает модель чувствительной к структуре текста, улучшает качество генерации и позволяет ей точнее интерпретировать смысл.

Примеры использования

Определение, к какому слову относится местоимение.
Выделение ключевой мысли в длинном предложении.
Понимание тональности и эмоциональной окраски текста.
Поиск логических связей при анализе документа.
Удержание контекста на многих сотнях слов в диалоге.
Обработка кода, где важны связи между разными частями программы.

Связанные термины

Transformer
Multi-head Attention
Embedding
Контекст
Токенизация
LLM
Positional Encoding

Категория термина

Архитектуры моделей

Экосистемы