MiniMax M2 — первые результаты серии тестов

MiniMax M2: первые наблюдения из серии тестов модели

~1 мин чтения

Команда Ре: ИИ запустила системную программу тестирования MiniMax M2 — новой модели компании MiniMax, ориентированной на сложные рассуждения, многошаговые логические конструкции и продвинутую генерацию кода. Это первая из серии публикаций, где мы будем фиксировать поведение модели в реальных промптах, найденные ограничения и параметры, которые напрямую влияют на качество работы.

Зачем мы начали тестировать MiniMax M2

MiniMax активно продвигает M2 как «компактную reasoning-модель» с высоким качеством работы и умеренными вычислительными затратами. Однако рекламные заявления всегда нужно проверять экспериментально — особенно если речь идёт о сценариях, где важны стабильность формата, чёткие границы вывода и предсказуемость поведения.

Поэтому мы начали с базовых тестов: от простых импликаций до контрфактических цепочек, а также — от минимальных запросов на генерацию кода до длинных задач с расширенным контекстом.

Поведение MiniMax M2 в логических задачах

Первое, что заметно: на коротких цепочках условий MiniMax M2 работает уверенно. Модель корректно применяет базовые правила вывода, удерживает структуру посылок и даёт точный финальный ответ. Ошибок в интерпретации условий мы не обнаружили.

Однако почти сразу проявился ключевой паттерн. При увеличении лимита токенов MiniMax M2 начинает:

  • добавлять подробные объяснения, даже если система требует «ответ без комментариев»;
  • разворачивать цепочку рассуждений шире, чем требуется;
  • возвращать формат размышлений (chain-of-thought), несмотря на запреты;
  • расширять текст ответа поверх логической структуры.

Такое поведение характерно для reasoning-моделей, где при увеличении доступного контекста модель стремится «надстроить» вывод и дать максимально развернутый ответ. Для аналитических задач это бывает полезно, но для автоматизированных пайплайнов — наоборот, может привести к нарушению формата.

Генерация кода: стабильный скелет, но растущие детали

Во втором блоке тестов мы проверили способность модели писать чистый код без пояснений. На лимите в 150–200 токенов MiniMax M2 выдаёт компактные и корректные функции на Python и JavaScript. Они соответствуют формату, не содержат лишних комментариев и подходят для встроенных автотестов.

Но при увеличении лимита до 1000–3000 токенов модель начинает:

  • автоматически расширять код дополнительными проверками;
  • добавлять тестовые примеры;
  • вставлять мини-докстринги или пояснения;
  • изменять структуру решения без требования.

Фактически MiniMax M2 ведёт себя так, будто стремится улучшить решение — даже если это нарушает формат. Это важно учитывать при использовании модели в CI-пайплайнах и сервисах с жёсткостью к структуре вывода.

Что мы поняли уже на первом этапе

MiniMax M2 — сильная reasoning-модель, особенно на коротких задачах. Но при увеличении токенов она начинает активно «творить», что хорошо для аналитики, но потенциально рискованно для строгих форматов.

Дальше мы проверим:

  • устойчивость к глубоко вложенным контрфактическим конструкциям;
  • поведение в задачах редукции и доказательства;
  • стабильность при повторных запросах с одинаковым промптом;
  • порог, на котором MiniMax M2 начинает нарушать формат неизбежно.

Это лишь начало серии материалов. По мере накопления данных мы будем выкладывать полные сравнительные таблицы, диаграммы поведения модели и подборки промптов, которые выявляют её сильные и слабые стороны.

QR Telegram

Подписывайтесь на наш Telegram

Новости, сводки и разборы

Читайте также