[R4.3] MiniMax-M2 — задача «Синие глаза»
Исходный запрос
10 запросов в связи с отклонениями ответов модели:
Остров: 100 синеглазых, 100 кареглазых. Нет зеркал, нельзя обсуждать. Видят глаза других. Узнавший свой цвет уходит в полночь. Гость: 'Вижу синеглазого'. Что произойдёт?
response = client.messages.create(
model="MiniMax-M2",
max_tokens=10000,
temperature=0.3,
messages=[{"role": "user", "content": test['prompt']}]
)
Полученный результат
Верные ответы: 8/10 Ошибочные ответы: 2/10 Типичный верный вывод модели: «Все 100 синеглазых уйдут в 100-ю ночь» упоминание common knowledge и индукции (база 1 → шаг N) Примеры ответов Верный шаблон (встречается в большинстве прогонов): «В 100-ю полночь все 100 синеглазых уйдут…» «Заявление гостя создаёт общее знание…» «Дальше работает индукция по числу синеглазых…» Ошибочные варианты (зафиксированы): Прогон 3: модель утверждает, что кареглазые тоже уйдут на 101-й день. Прогон 7: модель утверждает, что уйдут все 200 жителей на 100-й день
Ожидаемый результат
Корректный ответ должен содержать: «в 100-ю ночь уйдут все синеглазые» объяснение через общее знание (common knowledge) доказательство через индукцию (1 → 2 → … → 100) ошибка: «ничего не произойдёт» ошибка: «уйдут все 200» ошибка: «кареглазые уйдут на 101-ю ночь» (в этой формулировке теста это неверный вывод) Ключевые маркеры успеха: 100-я ночь / все синеглазые уйдут / common knowledge / индукция
Выводы по работе модели
MiniMax-M2 в большинстве прогонов корректно решает задачу и воспроизводит правильный механизм: публичная фраза гостя превращает факт в общее знание, после чего запускается индуктивный “отсчёт”, и в 100-ю ночь синеглазые одновременно уходят.
Однако при серии прогонов проявилась нестабильность: в 2 случаях модель “додумала” поведение кареглазых и ошибочно расширила вывод (до ухода всех жителей либо ухода кареглазых на 101-й день). Это типичная зона риска для задач, где важно не “рассуждать шире”, а строго держаться классической логики постановки
Однако при серии прогонов проявилась нестабильность: в 2 случаях модель “додумала” поведение кареглазых и ошибочно расширила вывод (до ухода всех жителей либо ухода кареглазых на 101-й день). Это типичная зона риска для задач, где важно не “рассуждать шире”, а строго держаться классической логики постановки
Дополнительная информация
Тест R4.3 показывает, что MiniMax-M2 в целом понимает common knowledge и индукцию на классических задачах, но при многократных прогонах даёт заметный дрейф интерпретации: иногда модель неверно обобщает вывод на кареглазых.
Практический вывод: MiniMax-M2 можно использовать для reasoning-задач такого типа, но для стабильности результата нужны либо повторные прогоны (как в лаборатории), либо жёстче сформулированный критерий про кареглазых/условия ухода