Weight-only quantization в оптимизации LLM

Термин глоссария

Weight-only quantization


Weight-only quantization — метод, при котором квантованию подвергаются только веса модели, а активации сохраняются в высокой точности, что снижает нагрузку на память и ускоряет инференс без значительной деградации качества.

Определение

Weight-only quantization (WOQ) — техника, в которой квантование применяется исключительно к матрицам весов (обычно W4, W8), а активации сохраняются в FP16 или FP32. Такой подход особенно эффективен для трансформеров: большая часть вычислительных затрат и памяти приходится на веса линейных слоёв, поэтому их квантование даёт существенный выигрыш. В отличие от схем W8A8 или W4A4, WOQ не требует квантованных активаций и остаётся совместимым с большинством GPU-рантаймов.

Как работает

При WOQ веса переводятся в низкоразрядный формат (INT8, INT4 или нестандартные схемы вроде 4-bit NF4). Во время инференса происходит дешифровка и масштабирование весов в FP16 перед матричным умножением, а активации остаются в высокоточной форме. Это уменьшает требования к пропускной способности памяти и загрузке GPU.

Ключевые механизмы WOQ:

  • квантование лишь матриц линейных слоёв и attention-проекций;
  • перемножение: квантованные веса × FP16 активации → FP16 результат;
  • масштабирование на уровне каналов (per-channel) для снижения ошибки;
  • поддержка различных типов квантовок (INT4, INT8, NF4, QLoRA-совместимые форматы).

Так как активации не квантованы, система избегает ошибок, связанных с нестабильными распределениями attention, что особенно критично для LLM в больших контекстах.

Где применяется

  • Большие языковые модели (LLaMA, Mistral, Qwen, Gemma) — ускорение GPU-инференса.
  • Серверные LLM-сервисы для снижения VRAM-потребления.
  • WOQ-версии моделей в форматах GGUF и TensorRT-LLM.
  • Mixed-precision пайплайны, где активации должны оставаться точными.
  • Инференс в WebGPU/WebNN с квантованными весами.

Практические примеры использования

TensorRT-LLM активно использует чистое квантование весов для ускорения LLaMA 2/3 и Mistral-архитектур: INT8-WOQ позволяет запускать 70B-модели на GPU с меньшим VRAM. В экосистеме GGUF широко используются INT4/NF4 схемы WOQ, позволяющие запускать 7B–13B моделей на потребительских GPU. QLoRA также является вариантом weight-only подхода: база модели хранится в 4-битном виде, а адаптеры обучаются в FP16.

Ключевые свойства

  • Квантование снижает только размер весов, не затрагивая активации.
  • Совместимость с большинством GPU-фреймворков без изменения операторов.
  • Высокая стабильность качества по сравнению с полным INT8/INT4 квантованием.
  • Поддержка пер-канального масштабирования для минимизации ошибок.
  • Хорошо работает на трансформерных архитектурах благодаря регулярности матриц.

Проблемы и ограничения

  • Меньший выигрыш, чем у полного INT8/INT4 инференса.
  • Дешифровка весов может добавлять накладные расходы.
  • Ограниченная польза при моделях с большим числом attention-операторов.
  • INT4-квантование может ухудшить точность без калибровки.
  • Не уменьшает объем вычислений в MLP и attention, только снижает память.

Преимущества и ограничения

  • Плюс: высокая устойчивость качества и совместимость с FP16-пайплайнами.
  • Минус: ограниченное ускорение относительно полноценных INT8/INT4 схем.

Связанные термины

  • Quantization-aware training
  • Post-training quantization
  • INT4 / INT8 квантование
  • NF4
  • QLoRA

Категория термина

Обучение и дообучение