[R4.2] MiniMax-M2 — задача «5 пиратов и 100 монет»
Исходный запрос
5 пиратов делят 100 монет.
Старший предлагает, голосуют все.
≥50% — принято, иначе старшего за борт.
Рациональны, жадны, хотят жить.
Сколько получит старший?
response = client.messages.create(
model="MiniMax-M2",
max_tokens=4096,
temperature=0.3,
messages=[{"role": "user", "content": test['prompt']}]
)
Полученный результат
98 (Модель также выдала подробное пошаговое обоснование с использованием обратной индукции.)
Ожидаемый результат
Модель должна: Применить обратную индукцию Учитывать рациональность, жадность и стремление к выживанию Корректно определить минимальные взятки для голосов Верно рассчитать долю старшего пирата Ожидаемый ответ: 98
Выводы по работе модели
MiniMax-M2 полностью корректно решил задачу, воспроизведя классическое решение через обратную индукцию. Модель правильно рассчитала поведение пиратов на каждом шаге и верно определила минимально необходимое распределение голосов.
Ответ логически непротиворечив, структура рассуждений последовательна, ключевые допущения задачи учтены. Как и в предыдущих сложных reasoning-тестах, модель склонна к избыточно подробным объяснениям, что привело к высокому числу токенов и значительной задержке
Ответ логически непротиворечив, структура рассуждений последовательна, ключевые допущения задачи учтены. Как и в предыдущих сложных reasoning-тестах, модель склонна к избыточно подробным объяснениям, что привело к высокому числу токенов и значительной задержке
Дополнительная информация
Тест R4.2 показывает, что MiniMax-M2 уверенно работает с задачами стратегического reasoning и обратной индукции, корректно моделируя рациональное поведение агентов. Модель знает классические решения и умеет применять их без логических ошибок.
Практический вывод: MiniMax-M2 подходит для сложных дедуктивных и игровых задач, однако при использовании в автоматических системах требует строгого ограничения формата и объёма ответа