В третьем этапе тестирования MiniMax M2 мы перешли от чистых reasoning-задач к формальной математике: арифметике, анализу, теории чисел и олимпиадным задачам.
Если предыдущий этап проверял, умеет ли модель рассуждать, то здесь задача была жёстче — понять, насколько MiniMax M2 пригоден для математических задач в условиях строгой автопроверки.
Контекст проведения тестов
Все тесты в этом отчёте выполнялись исключительно через официальный API MiniMax, предоставленный разработчиками модели.
Мы не использовали веб-интерфейс, сторонние прокси, неофициальные SDK или модифицированные клиенты.
Каждый прогон запускался напрямую через API-вызов с фиксированными параметрами (system prompt, temperature, max_tokens), а результаты фиксировались в неизменном виде, без ручной корректировки.
Это принципиальный момент:
- зафиксированное поведение отражает реальные условия интеграции;
- ошибки формата, лишний вывод и обрывы по лимиту — это поведение модели, а не UI;
- отчёт описывает MiniMax M2 в продакшн-сценарии, а не в демонстрационном режиме.
Ключевой вывод этапа
Главный результат математических тестов можно сформулировать так:
MiniMax M2 часто знает правильный математический ответ, но нестабилен как формальный исполнитель.
Модель хорошо понимает задачу и в большинстве случаев приходит к верному результату, однако регулярно нарушает формат ответа, теряет контроль длины вывода или «срывается» на сложных задачах.
1. Общая статистика
Было проведено 25 математических тестов.
- Pass: 19
- Fail: 6
- Формальный pass-rate: 76%
Важно сразу подчеркнуть:
не каждый fail означает математическую ошибку. Значительная часть провалов связана с несоблюдением выходного контракта.
2. Простая математика ломается чаще, чем сложная
Самый неожиданный результат этапа — провалы на элементарных вычислениях.
В список формально не пройденных тестов попали:
- базовая арифметика (17 × 23),
- НОД чисел,
- последняя цифра степени,
- определитель матрицы 3×3,
- простая модульная арифметика.
При этом в большинстве прогонов:
- числовой результат был правильным,
- но ответ сопровождался пояснениями, LaTeX или оформлением (
boxed{}).
В лабораторной системе автопроверки это автоматически засчитывается как fail, даже если значение верное.
Парадоксально, но факт:
MiniMax M2 чаще «роняет» простые вычисления, чем сложные теоретические задачи.
3. Теория чисел и «большие» темы — относительно устойчивы
На фоне проблем с базовыми тестами, задачи высокого уровня показали себя лучше:
- Великая теорема Ферма — pass
- Гипотеза Гольдбаха — pass
- Гипотеза Римана — pass
В этих тестах модель стабильно воспроизводит:
- корректную формулировку,
- актуальный статус (доказана / не доказана),
- ключевые имена и идеи.
Да, в отдельных прогонах появляется «наукообразный шум»: лишние фамилии, спорные детали, неточности.
Однако смысловой каркас ответа сохраняется, что позволяет считать такие тесты пройденными при ручной проверке.
4. Олимпиадная математика: ответ есть, стабильности — нет
Самый жёсткий стресс-тест этапа — IMO-уровень функциональное уравнение (M5.5).
Картина показательная:
- часть прогонов пришла к правильному выводу f(x)=x;
- один прогон дал ложный результат («решений нет»);
- четыре прогона вообще не вернули ответ из-за разрастания вывода до лимита токенов.
Это подчёркивает ключевую проблему MiniMax M2:
модель склонна «разгоняться» в доказательство и теряет контроль над объёмом вывода.
В условиях строгого API-контракта это критично.
5. Формат важнее математики
Как и на этапе reasoning, здесь снова проявился тот же паттерн:
MiniMax M2 думает правильно, но не умеет останавливаться.
Даже при системных инструкциях вида:
Answer only with the final result
модель:
- добавляет объяснения,
- оформляет решение как доказательство,
- игнорирует запрет на reasoning.
Для образовательных и исследовательских сценариев это плюс.
Для автоматических тестов, пайплайнов и API-интеграций — серьёзный минус.
6. Реальная математическая точность выше формального pass-rate
Если оценивать MiniMax M2 не по бинарному критерию «pass/fail», а по совпадению математического результата, картина меняется.
- Формальный pass-rate: ~76%
- Реальная корректность ответа: ~85–90%
Эту разницу важно проговаривать публично, иначе создаётся ложное ощущение, что модель «часто ошибается», хотя в реальности она часто знает ответ, но нарушает контракт.
Итог: MiniMax M2 как математический reasoner
По результатам этапа можно сделать аккуратный, но чёткий вывод:
MiniMax M2 — сильный математический reasoner, но слабый формальный исполнитель.
Модель:
- хорошо держит структуру математических рассуждений;
- уверенно работает с теорией и абстракциями;
- нестабильна в коротких вычислительных задачах;
- плохо соблюдает строгий формат и контроль длины вывода.
Что дальше
Математический этап подтвердил выводы reasoning-тестов и добавил новые сигналы.
Дальнейшие этапы тестирования MiniMax M2 будут сфокусированы на:
- Кодинге — сигнатуры, компилируемость, формат вывода;
- Форматах данных — JSON-контракты и машинная валидация;
- Русском языке — норма, орфография, сложные конструкции;
- Сравнении с другими моделями в тех же тестах.
Цель серии остаётся прежней:
не «оценка модели в вакууме», а понимание того, где MiniMax M2 надёжен, а где требует жёсткого внешнего контроля.