Квантизация — один из ключевых способов уменьшить большие модели. Она позволяет запускать LLM на обычных видеокартах, ноутбуках или даже телефонах, снижая размер и требования к вычислениям.
Короткое определение
Квантизация — это перевод весов модели в более низкую точность (например, 16-бит → 8-бит → 4-бит), что уменьшает объём памяти и ускоряет инференс.
Подробное объяснение
Большие модели хранят и обрабатывают веса в формате float16 или bfloat16. Это даёт высокую точность, но требует много памяти и вычислений.
Квантизация снижает разрядность весов: вместо 16 бит веса могут занимать 8, 4 или даже 2 бита. Это минимизирует размер модели и ускоряет вычисления, часто сохраняя приемлемое качество ответа.
Существуют разные подходы: — пост-квантизация (PTQ); — квантизация во время обучения (QAT); — смешанные режимы (GPTQ, AWQ, GGUF). Они по-разному балансируют между скоростью и качеством.
Квантизация позволяет запускать модели, которые раньше требовали 40–80 ГБ видеопамяти, на ноутбуках с 8–16 ГБ RAM. Это стало ключевым фактором развития локальных LLM.
В open-source экосистеме популярны квантизированные версии Llama, Mistral, Qwen, Phi, а также diffusion-моделей в формате GGUF.
Для российских моделей — GigaChat, YandexGPT, VK AI — квантизация используется для ускорения инференса в корпоративных системах и уменьшения стоимости вычислений.
Примеры использования
- Запуск больших моделей на обычном ПК.
- Использование LLM на смартфонах или edge-устройствах.
- Ускорение инференса в продакшене.
- Экономия памяти на сервере.
- Локальные AI-ассистенты без подключения к облаку.
Связанные термины
- Инференс
- Параметры модели
- Awq / Gptq
- GGUF
- Предобучение