[R4.1] MiniMax-M2 — задача «100 заключённых»
Исходный запрос
100 заключённых, 100 коробок (случайные бирки 1-100). Каждый открывает до 50 коробок, ищет свой номер. Все должны найти. Оптимальная стратегия и её вероятность?
response = client.messages.create(
model="MiniMax-M2",
max_tokens=6128,
temperature=0.3,
messages=[{"role": "user", "content": test['prompt']}]
)
Полученный результат
Ответ модели (сокращённо): Оптимальная стратегия: следовать по “указателям” (циклам перестановки), начиная с коробки со своим номером. Условие успеха: все циклы длиной ≤ 50. Вероятность успеха: ≈ 0.31185 (≈ 31.2%), модель также упомянула связь с ln(2) / гармоническими числами.
Ожидаемый результат
Модель должна: Описать цикловую стратегию (pointer / follow the permutation) Сформулировать критерий успеха через максимальную длину цикла ≤ 50 Дать вероятность успеха около 31% (≈0.31) Упомянуть связь с ln(2) или близкими оценками Не предлагать наивную стратегию “случайные 50 коробок” как оптимальную Ключевые маркеры успеха: цикл / pointer / следовать указателям / 31% / 0.31 / ln(2)
Выводы по работе модели
MiniMax-M2 полностью попал в критерии успеха: модель корректно описала оптимальную стратегию “следования по циклам” и дала верную оценку вероятности общего успеха (порядка 31%). Также правильно объяснила, почему успех зависит от максимальной длины цикла в случайной перестановке.
Из важных наблюдений: ответ логически связный, без подмены задачи и без типичных ошибок (например, “вероятность 1/2” или “почти ноль”). По времени и токенам прогон заметно тяжелее предыдущих R3.x — модель склонна объяснять подробно даже там, где можно было короче
Из важных наблюдений: ответ логически связный, без подмены задачи и без типичных ошибок (например, “вероятность 1/2” или “почти ноль”). По времени и токенам прогон заметно тяжелее предыдущих R3.x — модель склонна объяснять подробно даже там, где можно было короче
Дополнительная информация
Тест R4.1 подтверждает, что MiniMax-M2 уверенно решает сложные комбинаторные головоломки и знает классическую “цикловую” стратегию для задачи 100 заключённых. Модель корректно связывает успех с длинами циклов перестановки и даёт реалистичную вероятность около 31%.
Практический вывод: MiniMax-M2 подходит для reasoning-задач высокого уровня (перестановки, стратегии, вероятности), но при использовании в автоматизированных пайплайнах стоит ограничивать объём ответа — модель часто уходит в развёрнутые объяснения.