Тесты математики MiniMax M2: отчёт

Тесты математики MiniMax M2: сильное мышление, слабый контроль исполнения

~1 мин чтения

В третьем этапе тестирования MiniMax M2 мы перешли от чистых reasoning-задач к формальной математике: арифметике, анализу, теории чисел и олимпиадным задачам.
Если предыдущий этап проверял, умеет ли модель рассуждать, то здесь задача была жёстче — понять, насколько MiniMax M2 пригоден для математических задач в условиях строгой автопроверки.


Контекст проведения тестов

Все тесты в этом отчёте выполнялись исключительно через официальный API MiniMax, предоставленный разработчиками модели.

Мы не использовали веб-интерфейс, сторонние прокси, неофициальные SDK или модифицированные клиенты.
Каждый прогон запускался напрямую через API-вызов с фиксированными параметрами (system prompt, temperature, max_tokens), а результаты фиксировались в неизменном виде, без ручной корректировки.

Это принципиальный момент:

  • зафиксированное поведение отражает реальные условия интеграции;
  • ошибки формата, лишний вывод и обрывы по лимиту — это поведение модели, а не UI;
  • отчёт описывает MiniMax M2 в продакшн-сценарии, а не в демонстрационном режиме.

Ключевой вывод этапа

Главный результат математических тестов можно сформулировать так:

MiniMax M2 часто знает правильный математический ответ, но нестабилен как формальный исполнитель.

Модель хорошо понимает задачу и в большинстве случаев приходит к верному результату, однако регулярно нарушает формат ответа, теряет контроль длины вывода или «срывается» на сложных задачах.


1. Общая статистика

Было проведено 25 математических тестов.

  • Pass: 19
  • Fail: 6
  • Формальный pass-rate: 76%

Важно сразу подчеркнуть:
не каждый fail означает математическую ошибку. Значительная часть провалов связана с несоблюдением выходного контракта.


2. Простая математика ломается чаще, чем сложная

Самый неожиданный результат этапа — провалы на элементарных вычислениях.

В список формально не пройденных тестов попали:

  • базовая арифметика (17 × 23),
  • НОД чисел,
  • последняя цифра степени,
  • определитель матрицы 3×3,
  • простая модульная арифметика.

При этом в большинстве прогонов:

  • числовой результат был правильным,
  • но ответ сопровождался пояснениями, LaTeX или оформлением (boxed{}).

В лабораторной системе автопроверки это автоматически засчитывается как fail, даже если значение верное.

Парадоксально, но факт:

MiniMax M2 чаще «роняет» простые вычисления, чем сложные теоретические задачи.


3. Теория чисел и «большие» темы — относительно устойчивы

На фоне проблем с базовыми тестами, задачи высокого уровня показали себя лучше:

  • Великая теорема Ферма — pass
  • Гипотеза Гольдбаха — pass
  • Гипотеза Римана — pass

В этих тестах модель стабильно воспроизводит:

  • корректную формулировку,
  • актуальный статус (доказана / не доказана),
  • ключевые имена и идеи.

Да, в отдельных прогонах появляется «наукообразный шум»: лишние фамилии, спорные детали, неточности.
Однако смысловой каркас ответа сохраняется, что позволяет считать такие тесты пройденными при ручной проверке.


4. Олимпиадная математика: ответ есть, стабильности — нет

Самый жёсткий стресс-тест этапа — IMO-уровень функциональное уравнение (M5.5).

Картина показательная:

  • часть прогонов пришла к правильному выводу f(x)=xf(x)=xf(x)=x;
  • один прогон дал ложный результат («решений нет»);
  • четыре прогона вообще не вернули ответ из-за разрастания вывода до лимита токенов.

Это подчёркивает ключевую проблему MiniMax M2:

модель склонна «разгоняться» в доказательство и теряет контроль над объёмом вывода.

В условиях строгого API-контракта это критично.


5. Формат важнее математики

Как и на этапе reasoning, здесь снова проявился тот же паттерн:

MiniMax M2 думает правильно, но не умеет останавливаться.

Даже при системных инструкциях вида:

Answer only with the final result

модель:

  • добавляет объяснения,
  • оформляет решение как доказательство,
  • игнорирует запрет на reasoning.

Для образовательных и исследовательских сценариев это плюс.
Для автоматических тестов, пайплайнов и API-интеграций — серьёзный минус.


6. Реальная математическая точность выше формального pass-rate

Если оценивать MiniMax M2 не по бинарному критерию «pass/fail», а по совпадению математического результата, картина меняется.

  • Формальный pass-rate: ~76%
  • Реальная корректность ответа: ~85–90%

Эту разницу важно проговаривать публично, иначе создаётся ложное ощущение, что модель «часто ошибается», хотя в реальности она часто знает ответ, но нарушает контракт.


Итог: MiniMax M2 как математический reasoner

По результатам этапа можно сделать аккуратный, но чёткий вывод:

MiniMax M2 — сильный математический reasoner, но слабый формальный исполнитель.

Модель:

  • хорошо держит структуру математических рассуждений;
  • уверенно работает с теорией и абстракциями;
  • нестабильна в коротких вычислительных задачах;
  • плохо соблюдает строгий формат и контроль длины вывода.

Что дальше

Математический этап подтвердил выводы reasoning-тестов и добавил новые сигналы.
Дальнейшие этапы тестирования MiniMax M2 будут сфокусированы на:

  • Кодинге — сигнатуры, компилируемость, формат вывода;
  • Форматах данных — JSON-контракты и машинная валидация;
  • Русском языке — норма, орфография, сложные конструкции;
  • Сравнении с другими моделями в тех же тестах.

Цель серии остаётся прежней:
не «оценка модели в вакууме», а понимание того, где MiniMax M2 надёжен, а где требует жёсткого внешнего контроля.

QR Telegram

Подписывайтесь на наш Telegram

Новости, сводки и разборы

Читайте также