ALiBi — метод позиционного кодирования, который добавляет линейные смещения в attention-механизм и улучшает обработку длинных последовательностей.
Определение
ALiBi (Attention with Linear Biases) — это схема позиционного кодирования, в которой модель не использует эмбеддинги позиций. Вместо этого в матрицу attention добавляется линейный смещающий коэффициент, зависящий от расстояния между токенами. Ближайшие токены получают больший вес внимания, дальние — меньший, что позволяет архитектуре масштабироваться на длинные контексты.
ALiBi стала одним из ключевых подходов для моделей с длинными окнами контекста, благодаря своей эффективности и предсказуемому снижению внимания с увеличением расстояния.
Как работает
Основная идея ALiBi — встроить позиционную информацию напрямую в матрицу внимания, а не в эмбеддинги токенов. Система вводит линейные штрафы за расстояние между ключом и запросом.
- расстояние между токенами — определяется как |i − j|;
- линейный коэффициент — умножается на расстояние, формируя смещение;
- разные головы attention имеют разные коэффициенты — младшие головы штрафуют расстояние сильнее, старшие слабее;
- смешивание bias с raw-attention — смещение добавляется прямо в logits матрицы внимания перед softmax.
Итоговая формула внимания становится:
attention(i, j) = Qᵢ · Kⱼ + bias · |i − j|
Такое позиционное кодирование позволяет модели:
- не хранить позиционные эмбеддинги;
- обрабатывать последовательности любой длины без переработки эмбеддингов;
- получать естественное затухание внимания на больших расстояниях;
- масштабироваться без серьезной деградации качества.
Где применяется
- Модели с большими контекстами — тысячи и десятки тысяч токенов.
- Трансформеры с экономичным вниманием.
- Мультимодальные модели, где позиции вычисляются по относительному принципу.
- Системы обработки логов, событий и длинных последовательностей.
- Архитектуры без фиксированного лимита длины эмбеддингов.
- Оптимизированные модели inference-first.
Практические примеры использования
В языковых моделях ALiBi позволяет работать с последовательностями гораздо длиннее обученного контекста. Модель может анализировать большие документы, цепочки диалога и длинные кодовые файлы без потери качества, характерной для фиксированных позиционных эмбеддингов.
В системах анализа логов ALiBi сохраняет структуру временных зависимостей, даже если длина входа существенно превышает размер обучающих выборок.
В мультимодальных моделях линейные смещения помогают согласовать последовательности разной длины без необходимости проектировать отдельные позиционные векторы.
При дообучении ALiBi даёт возможность расширять окно контекста без изменения обученных параметров позиционных эмбеддингов.
Преимущества и ограничения
- Плюс: не требует позиционных эмбеддингов.
- Плюс: линейно масштабируется на длинных последовательностях.
- Плюс: улучшает стабильность внимания на больших дистанциях.
- Плюс: проста в реализации и не добавляет параметров.
- Минус: фиксированная форма смещения ограничивает гибкость.
- Минус: слабее работает на задачах, где важны абсолютные позиции.
- Минус: может проигрывать RoPE в задачах с насыщенными локальными зависимостями.
- Минус: сложнее переносится в некоторые модификации линейного внимания.
Связанные термины
- Positional encoding
- RoPE
- Relative positional encoding
- Self-attention
- Long-context architectures
- Transformer architecture
- Attention bias