Китайская компания MiniMax представила крупное обновление своей флагманской Large Language Model — M2, созданную на архитектуре Mixture-of-Experts (MoE). Модель позиционируется как одно из самых эффективных решений в Китае: при общем размере в ~200 млрд параметров она активирует лишь небольшую часть экспертов в каждом шаге, радикально снижая стоимость инференса.
Архитектура: как M2 стала “быстрее больших”
MiniMax использовала гибридный стек:
- Sparse attention для минимизации вычислений на длинных последовательностях;
- улучшенный механизм self-attention для устойчивого reasoning на больших контекстах;
- расширенное латентное пространство, оптимизированное под мультимодальные задачи;
- внутренний блок Context caching для ускорения обработки длинных диалогов.
Контекст вырос до 256 000 токенов, что выводит M2 в один ряд с топовыми моделями мира. Такой токен-лимит позволяет анализировать технические документы, кодовые репозитории, судебные материалы и длинные RAG-пайплайны без разрыва логики.
Экономика инференса: главный прорыв
Благодаря MoE модель задействует около 8–12 млрд параметров на запрос.
Это означает:
- меньше затрат на GPU-кластеры;
- более дешёвую генерацию текста и reasoning-ответов;
- возможность запуска в корпоративных конфигурациях;
- адаптацию под on-device inference на NPU следующего поколения.
MiniMax прямо заявляет, что M2 создавалась как модель, способная конкурировать не количеством параметров, а стоимостью вычисления одного ответа. Способности модели: не просто LLM, а “инженерный ассистент”
MiniMax M2 показывает сильные результаты в задачах:
- Chain-of-Thought и Tree-of-Thought reasoning в инженерных сценариях;
- обработка инструкций и создание технической документации;
- генерация текста и структурирование больших объёмов данных;
- работа в системах AI Agent для автономных бизнес-процессов;
- обработка мультимодальных входов (фото, схемы, диаграммы).
В компании отмечают улучшенную работу механизмов hallucination моделей — в M2 внедрена система self-verification, при которой модель сама пересматривает и валидирует свои собственные выводы.
API, SDK и инфраструктура
MiniMax готовит запуск:
- SDK для Python / JS / Rust;
- встроенный Prompt engineering-редактор;
- векторную инфраструктуру на базе FAISS и Milvus для RAG;
- корпоративные чекпоинты модели с приватным обучением.
Философия продукта — не просто дать LLM, а предоставить бизнесу полный стек от модели до векторной базы.
Почему это важно
M2 — первый реальный конкурент китайских Gigacore-моделей и прямой вызов западным аналогам.
Китайские стартапы сильно сдвигают баланс в сторону моделей, где при огромном размере параметров ключевым становится эффективность, а не brute force.