Термин глоссария

ALiBi

ALiBi — метод позиционного кодирования, который добавляет линейные смещения в attention-механизм и улучшает обработку длинных последовательностей.

Определение

ALiBi (Attention with Linear Biases) — это схема позиционного кодирования, в которой модель не использует эмбеддинги позиций. Вместо этого в матрицу attention добавляется линейный смещающий коэффициент, зависящий от расстояния между токенами. Ближайшие токены получают больший вес внимания, дальние — меньший, что позволяет архитектуре масштабироваться на длинные контексты.

ALiBi стала одним из ключевых подходов для моделей с длинными окнами контекста, благодаря своей эффективности и предсказуемому снижению внимания с увеличением расстояния.

Как работает

Основная идея ALiBi — встроить позиционную информацию напрямую в матрицу внимания, а не в эмбеддинги токенов. Система вводит линейные штрафы за расстояние между ключом и запросом.

расстояние между токенами — определяется как |i − j|;
линейный коэффициент — умножается на расстояние, формируя смещение;
разные головы attention имеют разные коэффициенты — младшие головы штрафуют расстояние сильнее, старшие слабее;
смешивание bias с raw-attention — смещение добавляется прямо в logits матрицы внимания перед softmax.

Итоговая формула внимания становится:

attention(i, j) = Qᵢ · Kⱼ + bias · |i − j|

Такое позиционное кодирование позволяет модели:

не хранить позиционные эмбеддинги;
обрабатывать последовательности любой длины без переработки эмбеддингов;
получать естественное затухание внимания на больших расстояниях;
масштабироваться без серьезной деградации качества.

Где применяется

Модели с большими контекстами — тысячи и десятки тысяч токенов.
Трансформеры с экономичным вниманием.
Мультимодальные модели, где позиции вычисляются по относительному принципу.
Системы обработки логов, событий и длинных последовательностей.
Архитектуры без фиксированного лимита длины эмбеддингов.
Оптимизированные модели inference-first.

Практические примеры использования

В языковых моделях ALiBi позволяет работать с последовательностями гораздо длиннее обученного контекста. Модель может анализировать большие документы, цепочки диалога и длинные кодовые файлы без потери качества, характерной для фиксированных позиционных эмбеддингов.

В системах анализа логов ALiBi сохраняет структуру временных зависимостей, даже если длина входа существенно превышает размер обучающих выборок.

В мультимодальных моделях линейные смещения помогают согласовать последовательности разной длины без необходимости проектировать отдельные позиционные векторы.

При дообучении ALiBi даёт возможность расширять окно контекста без изменения обученных параметров позиционных эмбеддингов.

Преимущества и ограничения

Плюс: не требует позиционных эмбеддингов.
Плюс: линейно масштабируется на длинных последовательностях.
Плюс: улучшает стабильность внимания на больших дистанциях.
Плюс: проста в реализации и не добавляет параметров.
Минус: фиксированная форма смещения ограничивает гибкость.
Минус: слабее работает на задачах, где важны абсолютные позиции.
Минус: может проигрывать RoPE в задачах с насыщенными локальными зависимостями.
Минус: сложнее переносится в некоторые модификации линейного внимания.

Связанные термины

Positional encoding
RoPE
Реlative positional encoding
Self-attention
Long-context architectures
Transformer architecture
Attention bias

Категория термина

Архитектуры моделей

Экосистемы