MiniMax M2 тест логики 12 шаров

[R3.3] MiniMax-M2 — логическая задача «12 шаров»

Исходный запрос

12 шаров, один отличается (неизвестно: тяжелее или легче). 
Чашечные весы. 
Минимум взвешиваний чтобы найти шар И узнать тяжелее/легче?

response = client.messages.create(
    model="MiniMax-M2",
    max_tokens=4096,
    temperature=0.3,
    messages=[{"role": "user", "content": test['prompt']}]
)

Полученный результат

3
(Модель также выдала подробное пошаговое обоснование классического алгоритма решения.)

Ожидаемый результат

Знание классическое решение задачи «12 шаров»

Понимать, что требуется определить не только шар, но и тип отличия (тяжелее/легче)
Вернуть минимальное число взвешиваний
Не занижать ответ до 2
Не завышать ответ выше оптимального

Ожидаемый ответ:

3

Выводы по работе модели

MiniMax-M2 корректно определил минимальное число взвешиваний и выдал правильный ответ. Более того, модель самостоятельно воспроизвела классический оптимальный алгоритм решения задачи, включая разбор возможных исходов каждого взвешивания и информационное обоснование минимальности числа 3.

С точки зрения reasoning, модель продемонстрировала способность удерживать сложное дерево условий и работать с понятием информационной ёмкости взвешиваний (3³ исхода против 24 возможных состояний). Это говорит о хорошем уровне логической обобщающей дедукции.

Единственным заметным отклонением стало значительное превышение ожидаемого объёма ответа и высокая задержка: модель выдала развёрнутое объяснение при запросе числового результата

Дополнительная информация

Тест «12 шаров» показал, что MiniMax-M2 корректно решает классические дедуктивные задачи, требующие многошагового логического анализа и оценки минимальности решения. Модель верно определила оптимальное число взвешиваний и подтвердила понимание структуры задачи.

Что важно

  • MiniMax-M2 демонстрирует устойчивое reasoning-поведение в задачах с комбинаторной логикой.

  • Модель знает и корректно применяет классические алгоритмы логических головоломок.

  • При этом наблюдается склонность к избыточным рассуждениям и увеличенному времени ответа.

Практический вывод

MiniMax-M2 хорошо подходит для логических и аналитических задач, но в автоматизированных сценариях требует ограничения формата вывода и объёма reasoning.

Информация

ID теста: 895

Тип:

Статус:

Модель: Minimax M2

Экосистема: MiniMax

Дата теста: 13.12.2025 23:02

Все тесты