Тесты математики MiniMax M2: отчёт

В третьем этапе тестирования MiniMax M2 мы перешли от чистых reasoning-задач к формальной математике: арифметике, анализу, теории чисел и олимпиадным задачам.
Если предыдущий этап проверял, умеет ли модель рассуждать, то здесь задача была жёстче — понять, насколько MiniMax M2 пригоден для математических задач в условиях строгой автопроверки.

Контекст проведения тестов

Все тесты в этом отчёте выполнялись исключительно через официальный API MiniMax, предоставленный разработчиками модели.

Мы не использовали веб-интерфейс, сторонние прокси, неофициальные SDK или модифицированные клиенты.
Каждый прогон запускался напрямую через API-вызов с фиксированными параметрами (system prompt, temperature, max_tokens), а результаты фиксировались в неизменном виде, без ручной корректировки.

Это принципиальный момент:

зафиксированное поведение отражает реальные условия интеграции;
ошибки формата, лишний вывод и обрывы по лимиту — это поведение модели, а не UI;
отчёт описывает MiniMax M2 в продакшн-сценарии, а не в демонстрационном режиме.

Ключевой вывод этапа

Главный результат математических тестов можно сформулировать так:

MiniMax M2 часто знает правильный математический ответ, но нестабилен как формальный исполнитель.

Модель хорошо понимает задачу и в большинстве случаев приходит к верному результату, однако регулярно нарушает формат ответа, теряет контроль длины вывода или «срывается» на сложных задачах.

1. Общая статистика

Было проведено 25 математических тестов.

Pass: 19
Fail: 6
Формальный pass-rate: 76%

Важно сразу подчеркнуть:
не каждый fail означает математическую ошибку. Значительная часть провалов связана с несоблюдением выходного контракта.

2. Простая математика ломается чаще, чем сложная

Самый неожиданный результат этапа — провалы на элементарных вычислениях.

В список формально не пройденных тестов попали:

базовая арифметика (17 × 23),
НОД чисел,
последняя цифра степени,
определитель матрицы 3×3,
простая модульная арифметика.

При этом в большинстве прогонов:

числовой результат был правильным,
но ответ сопровождался пояснениями, LaTeX или оформлением (boxed{}).

В лабораторной системе автопроверки это автоматически засчитывается как fail, даже если значение верное.

Парадоксально, но факт:

MiniMax M2 чаще «роняет» простые вычисления, чем сложные теоретические задачи.

3. Теория чисел и «большие» темы — относительно устойчивы

На фоне проблем с базовыми тестами, задачи высокого уровня показали себя лучше:

Великая теорема Ферма — pass
Гипотеза Гольдбаха — pass
Гипотеза Римана — pass

В этих тестах модель стабильно воспроизводит:

корректную формулировку,
актуальный статус (доказана / не доказана),
ключевые имена и идеи.

Да, в отдельных прогонах появляется «наукообразный шум»: лишние фамилии, спорные детали, неточности.
Однако смысловой каркас ответа сохраняется, что позволяет считать такие тесты пройденными при ручной проверке.

4. Олимпиадная математика: ответ есть, стабильности — нет

Самый жёсткий стресс-тест этапа — IMO-уровень функциональное уравнение (M5.5).

Картина показательная:

часть прогонов пришла к правильному выводу $f(x)=x$ f(x)=x;
один прогон дал ложный результат («решений нет»);
четыре прогона вообще не вернули ответ из-за разрастания вывода до лимита токенов.

Это подчёркивает ключевую проблему MiniMax M2:

модель склонна «разгоняться» в доказательство и теряет контроль над объёмом вывода.

В условиях строгого API-контракта это критично.

5. Формат важнее математики

Как и на этапе reasoning, здесь снова проявился тот же паттерн:

MiniMax M2 думает правильно, но не умеет останавливаться.

Даже при системных инструкциях вида:

Answer only with the final result

модель:

добавляет объяснения,
оформляет решение как доказательство,
игнорирует запрет на reasoning.

Для образовательных и исследовательских сценариев это плюс.
Для автоматических тестов, пайплайнов и API-интеграций — серьёзный минус.

6. Реальная математическая точность выше формального pass-rate

Если оценивать MiniMax M2 не по бинарному критерию «pass/fail», а по совпадению математического результата, картина меняется.

Формальный pass-rate: ~76%
Реальная корректность ответа: ~85–90%

Эту разницу важно проговаривать публично, иначе создаётся ложное ощущение, что модель «часто ошибается», хотя в реальности она часто знает ответ, но нарушает контракт.

Итог: MiniMax M2 как математический reasoner

По результатам этапа можно сделать аккуратный, но чёткий вывод:

MiniMax M2 — сильный математический reasoner, но слабый формальный исполнитель.

Модель:

хорошо держит структуру математических рассуждений;
уверенно работает с теорией и абстракциями;
нестабильна в коротких вычислительных задачах;
плохо соблюдает строгий формат и контроль длины вывода.

Что дальше

Математический этап подтвердил выводы reasoning-тестов и добавил новые сигналы.
Дальнейшие этапы тестирования MiniMax M2 будут сфокусированы на:

Кодинге — сигнатуры, компилируемость, формат вывода;
Форматах данных — JSON-контракты и машинная валидация;
Русском языке — норма, орфография, сложные конструкции;
Сравнении с другими моделями в тех же тестах.

Цель серии остаётся прежней:
не «оценка модели в вакууме», а понимание того, где MiniMax M2 надёжен, а где требует жёсткого внешнего контроля.

Подписывайтесь на наш Telegram

Новости, сводки и разборы

Перейти

Тесты математики MiniMax M2: сильное мышление, слабый контроль исполнения

Контекст проведения тестов

Ключевой вывод этапа

1. Общая статистика

2. Простая математика ломается чаще, чем сложная

3. Теория чисел и «большие» темы — относительно устойчивы

4. Олимпиадная математика: ответ есть, стабильности — нет

5. Формат важнее математики

6. Реальная математическая точность выше формального pass-rate

Итог: MiniMax M2 как математический reasoner

Что дальше

Подписывайтесь на наш Telegram

Читайте также

MiniMax M2: первые наблюдения из серии тестов модели

Тесты reasoning MiniMax M2: модель думает правильно, но нарушает формат

VK AI vs Qwen

Экосистемы

Тесты математики MiniMax M2: сильное мышление, слабый контроль исполнения

Контекст проведения тестов

Ключевой вывод этапа

1. Общая статистика

2. Простая математика ломается чаще, чем сложная

3. Теория чисел и «большие» темы — относительно устойчивы

4. Олимпиадная математика: ответ есть, стабильности — нет

5. Формат важнее математики

6. Реальная математическая точность выше формального pass-rate

Итог: MiniMax M2 как математический reasoner

Что дальше

Подписывайтесь на наш Telegram

Читайте также

MiniMax M2: первые наблюдения из серии тестов модели

Тесты reasoning MiniMax M2: модель думает правильно, но нарушает формат

VK AI vs Qwen