MiniMax M2 тест логики 100 заключённых

[R4.1] MiniMax-M2 — задача «100 заключённых»

Исходный запрос

100 заключённых, 100 коробок (случайные бирки 1-100). Каждый открывает до 50 коробок, ищет свой номер. Все должны найти. Оптимальная стратегия и её вероятность?

response = client.messages.create(
    model="MiniMax-M2",
    max_tokens=6128,
    temperature=0.3,
    messages=[{"role": "user", "content": test['prompt']}]
)

Полученный результат

Ответ модели (сокращённо):

Оптимальная стратегия: следовать по “указателям” (циклам перестановки), начиная с коробки со своим номером.
Условие успеха: все циклы длиной ≤ 50.
Вероятность успеха: ≈ 0.31185 (≈ 31.2%), модель также упомянула связь с ln(2) / гармоническими числами.

Ожидаемый результат

Модель должна:

Описать цикловую стратегию (pointer / follow the permutation)
Сформулировать критерий успеха через максимальную длину цикла ≤ 50
Дать вероятность успеха около 31% (≈0.31)
Упомянуть связь с ln(2) или близкими оценками
Не предлагать наивную стратегию “случайные 50 коробок” как оптимальную

Ключевые маркеры успеха:
цикл / pointer / следовать указателям / 31% / 0.31 / ln(2)

Выводы по работе модели

MiniMax-M2 полностью попал в критерии успеха: модель корректно описала оптимальную стратегию “следования по циклам” и дала верную оценку вероятности общего успеха (порядка 31%). Также правильно объяснила, почему успех зависит от максимальной длины цикла в случайной перестановке.

Из важных наблюдений: ответ логически связный, без подмены задачи и без типичных ошибок (например, “вероятность 1/2” или “почти ноль”). По времени и токенам прогон заметно тяжелее предыдущих R3.x — модель склонна объяснять подробно даже там, где можно было короче

Дополнительная информация

Тест R4.1 подтверждает, что MiniMax-M2 уверенно решает сложные комбинаторные головоломки и знает классическую “цикловую” стратегию для задачи 100 заключённых. Модель корректно связывает успех с длинами циклов перестановки и даёт реалистичную вероятность около 31%.

Практический вывод: MiniMax-M2 подходит для reasoning-задач высокого уровня (перестановки, стратегии, вероятности), но при использовании в автоматизированных пайплайнах стоит ограничивать объём ответа — модель часто уходит в развёрнутые объяснения.

Информация

ID теста: 899

Тип:

Статус:

Модель: Minimax M2

Экосистема: MiniMax

Дата теста: 13.12.2025 23:12

Все тесты