Квантизация моделей: как уменьшить LLM без потери качества

Термин глоссария

Квантизация


Квантизация — один из ключевых способов уменьшить большие модели. Она позволяет запускать LLM на обычных видеокартах, ноутбуках или даже телефонах, снижая размер и требования к вычислениям.

Короткое определение

Квантизация — это перевод весов модели в более низкую точность (например, 16-бит → 8-бит → 4-бит), что уменьшает объём памяти и ускоряет инференс.

Подробное объяснение

Большие модели хранят и обрабатывают веса в формате float16 или bfloat16. Это даёт высокую точность, но требует много памяти и вычислений.

Квантизация снижает разрядность весов: вместо 16 бит веса могут занимать 8, 4 или даже 2 бита. Это минимизирует размер модели и ускоряет вычисления, часто сохраняя приемлемое качество ответа.

Существуют разные подходы: — пост-квантизация (PTQ); — квантизация во время обучения (QAT); — смешанные режимы (GPTQ, AWQ, GGUF). Они по-разному балансируют между скоростью и качеством.

Квантизация позволяет запускать модели, которые раньше требовали 40–80 ГБ видеопамяти, на ноутбуках с 8–16 ГБ RAM. Это стало ключевым фактором развития локальных LLM.

В open-source экосистеме популярны квантизированные версии Llama, Mistral, Qwen, Phi, а также diffusion-моделей в формате GGUF.

Для российских моделей — GigaChat, YandexGPT, VK AI — квантизация используется для ускорения инференса в корпоративных системах и уменьшения стоимости вычислений.

Примеры использования

  • Запуск больших моделей на обычном ПК.
  • Использование LLM на смартфонах или edge-устройствах.
  • Ускорение инференса в продакшене.
  • Экономия памяти на сервере.
  • Локальные AI-ассистенты без подключения к облаку.

Связанные термины

  • Инференс
  • Параметры модели
  • Awq / Gptq
  • GGUF
  • Предобучение

Категория термина

Инференс и производительность