Weight-only quantization — метод, при котором квантованию подвергаются только веса модели, а активации сохраняются в высокой точности, что снижает нагрузку на память и ускоряет инференс без значительной деградации качества.
Определение
Weight-only quantization (WOQ) — техника, в которой квантование применяется исключительно к матрицам весов (обычно W4, W8), а активации сохраняются в FP16 или FP32. Такой подход особенно эффективен для трансформеров: большая часть вычислительных затрат и памяти приходится на веса линейных слоёв, поэтому их квантование даёт существенный выигрыш. В отличие от схем W8A8 или W4A4, WOQ не требует квантованных активаций и остаётся совместимым с большинством GPU-рантаймов.
Как работает
При WOQ веса переводятся в низкоразрядный формат (INT8, INT4 или нестандартные схемы вроде 4-bit NF4). Во время инференса происходит дешифровка и масштабирование весов в FP16 перед матричным умножением, а активации остаются в высокоточной форме. Это уменьшает требования к пропускной способности памяти и загрузке GPU.
Ключевые механизмы WOQ:
- квантование лишь матриц линейных слоёв и attention-проекций;
- перемножение: квантованные веса × FP16 активации → FP16 результат;
- масштабирование на уровне каналов (per-channel) для снижения ошибки;
- поддержка различных типов квантовок (INT4, INT8, NF4, QLoRA-совместимые форматы).
Так как активации не квантованы, система избегает ошибок, связанных с нестабильными распределениями attention, что особенно критично для LLM в больших контекстах.
Где применяется
- Большие языковые модели (LLaMA, Mistral, Qwen, Gemma) — ускорение GPU-инференса.
- Серверные LLM-сервисы для снижения VRAM-потребления.
- WOQ-версии моделей в форматах GGUF и TensorRT-LLM.
- Mixed-precision пайплайны, где активации должны оставаться точными.
- Инференс в WebGPU/WebNN с квантованными весами.
Практические примеры использования
TensorRT-LLM активно использует чистое квантование весов для ускорения LLaMA 2/3 и Mistral-архитектур: INT8-WOQ позволяет запускать 70B-модели на GPU с меньшим VRAM. В экосистеме GGUF широко используются INT4/NF4 схемы WOQ, позволяющие запускать 7B–13B моделей на потребительских GPU. QLoRA также является вариантом weight-only подхода: база модели хранится в 4-битном виде, а адаптеры обучаются в FP16.
Ключевые свойства
- Квантование снижает только размер весов, не затрагивая активации.
- Совместимость с большинством GPU-фреймворков без изменения операторов.
- Высокая стабильность качества по сравнению с полным INT8/INT4 квантованием.
- Поддержка пер-канального масштабирования для минимизации ошибок.
- Хорошо работает на трансформерных архитектурах благодаря регулярности матриц.
Проблемы и ограничения
- Меньший выигрыш, чем у полного INT8/INT4 инференса.
- Дешифровка весов может добавлять накладные расходы.
- Ограниченная польза при моделях с большим числом attention-операторов.
- INT4-квантование может ухудшить точность без калибровки.
- Не уменьшает объем вычислений в MLP и attention, только снижает память.
Преимущества и ограничения
- Плюс: высокая устойчивость качества и совместимость с FP16-пайплайнами.
- Минус: ограниченное ускорение относительно полноценных INT8/INT4 схем.
Связанные термины
- Quantization-aware training
- Post-training quantization
- INT4 / INT8 квантование
- NF4
- QLoRA