ALiBi: линейные позиционные смещения внимания

Термин глоссария

ALiBi


ALiBi — метод позиционного кодирования, который добавляет линейные смещения в attention-механизм и улучшает обработку длинных последовательностей.

Определение

ALiBi (Attention with Linear Biases) — это схема позиционного кодирования, в которой модель не использует эмбеддинги позиций. Вместо этого в матрицу attention добавляется линейный смещающий коэффициент, зависящий от расстояния между токенами. Ближайшие токены получают больший вес внимания, дальние — меньший, что позволяет архитектуре масштабироваться на длинные контексты.

ALiBi стала одним из ключевых подходов для моделей с длинными окнами контекста, благодаря своей эффективности и предсказуемому снижению внимания с увеличением расстояния.

Как работает

Основная идея ALiBi — встроить позиционную информацию напрямую в матрицу внимания, а не в эмбеддинги токенов. Система вводит линейные штрафы за расстояние между ключом и запросом.

  • расстояние между токенами — определяется как |i − j|;
  • линейный коэффициент — умножается на расстояние, формируя смещение;
  • разные головы attention имеют разные коэффициенты — младшие головы штрафуют расстояние сильнее, старшие слабее;
  • смешивание bias с raw-attention — смещение добавляется прямо в logits матрицы внимания перед softmax.

Итоговая формула внимания становится:

attention(i, j) = Qᵢ · Kⱼ + bias · |i − j|

Такое позиционное кодирование позволяет модели:

  • не хранить позиционные эмбеддинги;
  • обрабатывать последовательности любой длины без переработки эмбеддингов;
  • получать естественное затухание внимания на больших расстояниях;
  • масштабироваться без серьезной деградации качества.

Где применяется

  • Модели с большими контекстами — тысячи и десятки тысяч токенов.
  • Трансформеры с экономичным вниманием.
  • Мультимодальные модели, где позиции вычисляются по относительному принципу.
  • Системы обработки логов, событий и длинных последовательностей.
  • Архитектуры без фиксированного лимита длины эмбеддингов.
  • Оптимизированные модели inference-first.

Практические примеры использования

В языковых моделях ALiBi позволяет работать с последовательностями гораздо длиннее обученного контекста. Модель может анализировать большие документы, цепочки диалога и длинные кодовые файлы без потери качества, характерной для фиксированных позиционных эмбеддингов.

В системах анализа логов ALiBi сохраняет структуру временных зависимостей, даже если длина входа существенно превышает размер обучающих выборок.

В мультимодальных моделях линейные смещения помогают согласовать последовательности разной длины без необходимости проектировать отдельные позиционные векторы.

При дообучении ALiBi даёт возможность расширять окно контекста без изменения обученных параметров позиционных эмбеддингов.

Преимущества и ограничения

  • Плюс: не требует позиционных эмбеддингов.
  • Плюс: линейно масштабируется на длинных последовательностях.
  • Плюс: улучшает стабильность внимания на больших дистанциях.
  • Плюс: проста в реализации и не добавляет параметров.
  • Минус: фиксированная форма смещения ограничивает гибкость.
  • Минус: слабее работает на задачах, где важны абсолютные позиции.
  • Минус: может проигрывать RoPE в задачах с насыщенными локальными зависимостями.
  • Минус: сложнее переносится в некоторые модификации линейного внимания.

Связанные термины

  • Positional encoding
  • RoPE
  • Relative positional encoding
  • Self-attention
  • Long-context architectures
  • Transformer architecture
  • Attention bias

Категория термина

Архитектуры моделей