Термин глоссария

Квантизация

Квантизация — один из ключевых способов уменьшить большие модели. Она позволяет запускать LLM на обычных видеокартах, ноутбуках или даже телефонах, снижая размер и требования к вычислениям.

Короткое определение

Квантизация — это перевод весов модели в более низкую точность (например, 16-бит → 8-бит → 4-бит), что уменьшает объём памяти и ускоряет инференс.

Подробное объяснение

Большие модели хранят и обрабатывают веса в формате float16 или bfloat16. Это даёт высокую точность, но требует много памяти и вычислений.

Квантизация снижает разрядность весов: вместо 16 бит веса могут занимать 8, 4 или даже 2 бита. Это минимизирует размер модели и ускоряет вычисления, часто сохраняя приемлемое качество ответа.

Существуют разные подходы: — пост-квантизация (PTQ); — квантизация во время обучения (QAT); — смешанные режимы (GPTQ, AWQ, GGUF). Они по-разному балансируют между скоростью и качеством.

Квантизация позволяет запускать модели, которые раньше требовали 40–80 ГБ видеопамяти, на ноутбуках с 8–16 ГБ RAM. Это стало ключевым фактором развития локальных LLM.

В open-source экосистеме популярны квантизированные версии Llama, Mistral, Qwen, Phi, а также diffusion-моделей в формате GGUF.

Для российских моделей — GigaChat, YandexGPT, VK AI — квантизация используется для ускорения инференса в корпоративных системах и уменьшения стоимости вычислений.

Примеры использования

Запуск больших моделей на обычном ПК.
Использование LLM на смартфонах или edge-устройствах.
Ускорение инференса в продакшене.
Экономия памяти на сервере.
Локальные AI-ассистенты без подключения к облаку.

Связанные термины

Инференс
Параметры модели
Awq / Gptq
GGUF
Предобучение

Категория термина

Инференс и производительность

Экосистемы