MiniMax представила M2 — новую китайскую LLM

MiniMax представила M2 — новую китайскую LLM на 200 млрд параметров, которая меняет экономику инференса.

~1 мин чтения

Китайская компания MiniMax представила крупное обновление своей флагманской Large Language Model — M2, созданную на архитектуре Mixture-of-Experts (MoE). Модель позиционируется как одно из самых эффективных решений в Китае: при общем размере в ~200 млрд параметров она активирует лишь небольшую часть экспертов в каждом шаге, радикально снижая стоимость инференса.

Архитектура: как M2 стала “быстрее больших”

MiniMax использовала гибридный стек:

  • Sparse attention для минимизации вычислений на длинных последовательностях;
  • улучшенный механизм self-attention для устойчивого reasoning на больших контекстах;
  • расширенное латентное пространство, оптимизированное под мультимодальные задачи;
  • внутренний блок Context caching для ускорения обработки длинных диалогов.

Контекст вырос до 256 000 токенов, что выводит M2 в один ряд с топовыми моделями мира. Такой токен-лимит позволяет анализировать технические документы, кодовые репозитории, судебные материалы и длинные RAG-пайплайны без разрыва логики.

Экономика инференса: главный прорыв

Благодаря MoE модель задействует около 8–12 млрд параметров на запрос.
Это означает:

  • меньше затрат на GPU-кластеры;
  • более дешёвую генерацию текста и reasoning-ответов;
  • возможность запуска в корпоративных конфигурациях;
  • адаптацию под on-device inference на NPU следующего поколения.

MiniMax прямо заявляет, что M2 создавалась как модель, способная конкурировать не количеством параметров, а стоимостью вычисления одного ответа. Способности модели: не просто LLM, а “инженерный ассистент”

MiniMax M2 показывает сильные результаты в задачах:

  • Chain-of-Thought и Tree-of-Thought reasoning в инженерных сценариях;
  • обработка инструкций и создание технической документации;
  • генерация текста и структурирование больших объёмов данных;
  • работа в системах AI Agent для автономных бизнес-процессов;
  • обработка мультимодальных входов (фото, схемы, диаграммы).

В компании отмечают улучшенную работу механизмов hallucination моделей — в M2 внедрена система self-verification, при которой модель сама пересматривает и валидирует свои собственные выводы.

API, SDK и инфраструктура

MiniMax готовит запуск:

  • SDK для Python / JS / Rust;
  • встроенный Prompt engineering-редактор;
  • векторную инфраструктуру на базе FAISS и Milvus для RAG;
  • корпоративные чекпоинты модели с приватным обучением.

Философия продукта — не просто дать LLM, а предоставить бизнесу полный стек от модели до векторной базы.

Почему это важно

M2 — первый реальный конкурент китайских Gigacore-моделей и прямой вызов западным аналогам.
Китайские стартапы сильно сдвигают баланс в сторону моделей, где при огромном размере параметров ключевым становится эффективность, а не brute force.

QR Telegram

Подписывайтесь на наш Telegram

Новости, сводки и разборы

Читайте также