Термин глоссария

Weight-only quantization

Weight-only quantization — метод, при котором квантованию подвергаются только веса модели, а активации сохраняются в высокой точности, что снижает нагрузку на память и ускоряет инференс без значительной деградации качества.

Определение

Weight-only quantization (WOQ) — техника, в которой квантование применяется исключительно к матрицам весов (обычно W4, W8), а активации сохраняются в FP16 или FP32. Такой подход особенно эффективен для трансформеров: большая часть вычислительных затрат и памяти приходится на веса линейных слоёв, поэтому их квантование даёт существенный выигрыш. В отличие от схем W8A8 или W4A4, WOQ не требует квантованных активаций и остаётся совместимым с большинством GPU-рантаймов.

Как работает

При WOQ веса переводятся в низкоразрядный формат (INT8, INT4 или нестандартные схемы вроде 4-bit NF4). Во время инференса происходит дешифровка и масштабирование весов в FP16 перед матричным умножением, а активации остаются в высокоточной форме. Это уменьшает требования к пропускной способности памяти и загрузке GPU.

Ключевые механизмы WOQ:

квантование лишь матриц линейных слоёв и attention-проекций;
перемножение: квантованные веса × FP16 активации → FP16 результат;
масштабирование на уровне каналов (per-channel) для снижения ошибки;
поддержка различных типов квантовок (INT4, INT8, NF4, QLoRA-совместимые форматы).

Так как активации не квантованы, система избегает ошибок, связанных с нестабильными распределениями attention, что особенно критично для LLM в больших контекстах.

Где применяется

Большие языковые модели (LLaMA, Mistral, Qwen, Gemma) — ускорение GPU-инференса.
Серверные LLM-сервисы для снижения VRAM-потребления.
WOQ-версии моделей в форматах GGUF и TensorRT-LLM.
Mixed-precision пайплайны, где активации должны оставаться точными.
Инференс в WebGPU/WebNN с квантованными весами.

Практические примеры использования

TensorRT-LLM активно использует чистое квантование весов для ускорения LLaMA 2/3 и Mistral-архитектур: INT8-WOQ позволяет запускать 70B-модели на GPU с меньшим VRAM. В экосистеме GGUF широко используются INT4/NF4 схемы WOQ, позволяющие запускать 7B–13B моделей на потребительских GPU. QLoRA также является вариантом weight-only подхода: база модели хранится в 4-битном виде, а адаптеры обучаются в FP16.

Ключевые свойства

Квантование снижает только размер весов, не затрагивая активации.
Совместимость с большинством GPU-фреймворков без изменения операторов.
Высокая стабильность качества по сравнению с полным INT8/INT4 квантованием.
Поддержка пер-канального масштабирования для минимизации ошибок.
Хорошо работает на трансформерных архитектурах благодаря регулярности матриц.

Проблемы и ограничения

Меньший выигрыш, чем у полного INT8/INT4 инференса.
Дешифровка весов может добавлять накладные расходы.
Ограниченная польза при моделях с большим числом attention-операторов.
INT4-квантование может ухудшить точность без калибровки.
Не уменьшает объем вычислений в MLP и attention, только снижает память.

Преимущества и ограничения

Плюс: высокая устойчивость качества и совместимость с FP16-пайплайнами.
Минус: ограниченное ускорение относительно полноценных INT8/INT4 схем.

Связанные термины

Quantization-aware training
Post-training quantization
INT4 / INT8 квантование
NF4
QLoRA

Категория термина

Обучение и дообучение

Экосистемы