Команда Ре: ИИ запустила системную программу тестирования MiniMax M2 — новой модели компании MiniMax, ориентированной на сложные рассуждения, многошаговые логические конструкции и продвинутую генерацию кода. Это первая из серии публикаций, где мы будем фиксировать поведение модели в реальных промптах, найденные ограничения и параметры, которые напрямую влияют на качество работы.
Зачем мы начали тестировать MiniMax M2
MiniMax активно продвигает M2 как «компактную reasoning-модель» с высоким качеством работы и умеренными вычислительными затратами. Однако рекламные заявления всегда нужно проверять экспериментально — особенно если речь идёт о сценариях, где важны стабильность формата, чёткие границы вывода и предсказуемость поведения.
Поэтому мы начали с базовых тестов: от простых импликаций до контрфактических цепочек, а также — от минимальных запросов на генерацию кода до длинных задач с расширенным контекстом.
Поведение MiniMax M2 в логических задачах
Первое, что заметно: на коротких цепочках условий MiniMax M2 работает уверенно. Модель корректно применяет базовые правила вывода, удерживает структуру посылок и даёт точный финальный ответ. Ошибок в интерпретации условий мы не обнаружили.
Однако почти сразу проявился ключевой паттерн. При увеличении лимита токенов MiniMax M2 начинает:
- добавлять подробные объяснения, даже если система требует «ответ без комментариев»;
- разворачивать цепочку рассуждений шире, чем требуется;
- возвращать формат размышлений (chain-of-thought), несмотря на запреты;
- расширять текст ответа поверх логической структуры.
Такое поведение характерно для reasoning-моделей, где при увеличении доступного контекста модель стремится «надстроить» вывод и дать максимально развернутый ответ. Для аналитических задач это бывает полезно, но для автоматизированных пайплайнов — наоборот, может привести к нарушению формата.
Генерация кода: стабильный скелет, но растущие детали
Во втором блоке тестов мы проверили способность модели писать чистый код без пояснений. На лимите в 150–200 токенов MiniMax M2 выдаёт компактные и корректные функции на Python и JavaScript. Они соответствуют формату, не содержат лишних комментариев и подходят для встроенных автотестов.
Но при увеличении лимита до 1000–3000 токенов модель начинает:
- автоматически расширять код дополнительными проверками;
- добавлять тестовые примеры;
- вставлять мини-докстринги или пояснения;
- изменять структуру решения без требования.
Фактически MiniMax M2 ведёт себя так, будто стремится улучшить решение — даже если это нарушает формат. Это важно учитывать при использовании модели в CI-пайплайнах и сервисах с жёсткостью к структуре вывода.
Что мы поняли уже на первом этапе
MiniMax M2 — сильная reasoning-модель, особенно на коротких задачах. Но при увеличении токенов она начинает активно «творить», что хорошо для аналитики, но потенциально рискованно для строгих форматов.
Дальше мы проверим:
- устойчивость к глубоко вложенным контрфактическим конструкциям;
- поведение в задачах редукции и доказательства;
- стабильность при повторных запросах с одинаковым промптом;
- порог, на котором MiniMax M2 начинает нарушать формат неизбежно.
Это лишь начало серии материалов. По мере накопления данных мы будем выкладывать полные сравнительные таблицы, диаграммы поведения модели и подборки промптов, которые выявляют её сильные и слабые стороны.