Во втором этапе тестирования MiniMax M2 мы сфокусировались исключительно на reasoning-задачах: логике, математических рассуждениях и формальных выводах. Цель — отделить реальное качество рассуждений от проблем формата и протокола, которые начали проявляться уже на первом этапе.
Ключевой вывод этапа
Главный результат тестов можно сформулировать жёстко и однозначно:
MiniMax M2 почти не ошибается по смыслу, но регулярно ошибается по протоколу.
Этот вывод подтверждён не ощущениями, а цифрами. В большинстве reasoning-задач модель приходит к правильному логическому или математическому выводу, но до 30–40% прогонов формально считаются «проваленными» из-за несоблюдения формата ответа.
1. Корректный вывод при нарушенном формате
В логических и математических тестах мы проверяли:
- формальные логические задачи (импликации, определения, дедукция);
- математические reasoning-вопросы (P vs NP, теорема Эрроу, базовые теоремы);
- цепочки условий второго уровня сложности.
В задачах уровня R4–R5 MiniMax M2 почти всегда приходит к правильному финальному выводу. Ошибки именно в логике или математике встречаются редко.
Однако значительная доля прогонов формально не проходит автопроверку, потому что:
- ответ обёрнут в пояснительный текст;
- модель добавляет LaTeX или структурированное объяснение;
- результат возвращается внутри JSON или маркированного блока;
- присутствует reasoning-часть, несмотря на запрет.
Фактически MiniMax M2 «думает правильно», но не умеет останавливаться ровно на финальном результате. Это указывает не на проблему качества reasoning, а на слабый контроль границ вывода.
2. Реasoning не деградирует с длиной цепочки
Важное отличие MiniMax M2 от многих моделей среднего класса — отсутствие деградации рассуждений при увеличении длины цепочки.
В тестах на:
- P vs NP;
- теорему Эрроу;
- многошаговые логические конструкции с вложенными условиями;
мы не наблюдали:
- логических разрывов;
- подмены терминов;
- упрощения формулировок по ходу рассуждений;
- «съезда» в поверхностный пересказ.
Даже при длинных ответах модель сохраняет корректные определения, не путает причины и следствия и удерживает структуру аргумента. Это говорит о хорошей внутренней когерентности reasoning-движка.
3. Склонность к автодемонстрации рассуждений
Отдельный поведенческий паттерн MiniMax M2 — стремление демонстрировать ход рассуждений даже при прямом запрете.
При системных инструкциях вида:
Answer ONLY with the final result.
модель:
- вставляет ход решения;
- оформляет его как доказательство;
- иногда явно маркирует reasoning-часть.
Это поведение не похоже на случайный баг. Скорее, reasoning воспринимается моделью как обязательная часть ответа, а не как скрытый внутренний процесс.
Важно подчеркнуть: модель не «сливает» скрытые рассуждения, она осознанно формирует объяснение как часть финального ответа.
Для исследовательских и образовательных задач это плюс. Для автоматических тестов и строгих API-контрактов — минус.
4. Реальная консистентность выше pass-rate
Если оценивать MiniMax M2 не по бинарной схеме «прошёл / не прошёл», а по совпадению финального вывода, картина меняется радикально.
Реальная консистентность reasoning-ответов находится ближе к 90–95%, тогда как строгая автопроверка показывает 60–70%.
Это принципиально важно проговаривать публично, иначе возникает ложное впечатление нестабильности модели.
5. MiniMax M2 как research-reasoner
По сумме наблюдений можно сделать аккуратный, но сильный вывод:
MiniMax M2 ближе к research-reasoner, чем к API-исполнителю.
Модель:
- не оптимизирована под жёсткие output-контракты;
- плохо чувствует «границу вывода»;
- зато отлично подходит для аналитики, объяснений и логических разборов.
Это принципиально отличает её от моделей, заточенных под машинную валидацию, строгие схемы и минимальный вывод.
Что дальше
Реasoning-тесты — лишь первый слой исследования. Далее мы последовательно расширяем тестовую программу MiniMax M2 по ключевым направлениям, которые критичны для практического применения модели.
В следующих этапах тестирования запланированы:
- Математика — формальная арифметика, теоремы, дедуктивные цепочки, устойчивость вывода и контроль ошибок в строгих условиях.
- Кодинг — генерация функций, классов и структур данных, соблюдение сигнатур, компилируемость, контроль формата и поведение при увеличении лимитов токенов.
- Русский язык — орфография, пунктуация, синтаксис, сложные правила и чувствительность к языковой норме.
- Безопасность — фильтрация запрещённого контента, реакция на пограничные запросы и устойчивость к провокациям.
- Формат данных — строгие JSON-схемы, таблицы, машинная валидация и способность модели удерживать контракт вывода.
По каждому направлению будут опубликованы отдельные материалы с количественными метриками, примерами промптов и анализом поведения модели.
Цель серии — не «оценка в вакууме», а понимание того, в каких сценариях MiniMax M2 действительно надёжен, а где его поведение требует дополнительного контроля. мы будем публиковать сравнительные таблицы, диаграммы и эталонные промпты.