[R4.3] MiniMax-M2 — задача «Синие глаза»

Исходный запрос

10 запросов в связи с отклонениями ответов модели:

Остров: 100 синеглазых, 100 кареглазых. Нет зеркал, нельзя обсуждать. Видят глаза других. Узнавший свой цвет уходит в полночь. Гость: 'Вижу синеглазого'. Что произойдёт?

response = client.messages.create(
    model="MiniMax-M2",
    max_tokens=10000,
    temperature=0.3,
    messages=[{"role": "user", "content": test['prompt']}]
)

Полученный результат

Верные ответы: 8/10
Ошибочные ответы: 2/10

Типичный верный вывод модели:

«Все 100 синеглазых уйдут в 100-ю ночь»
упоминание common knowledge и индукции (база 1 → шаг N)

Примеры ответов
Верный шаблон (встречается в большинстве прогонов):
«В 100-ю полночь все 100 синеглазых уйдут…»
«Заявление гостя создаёт общее знание…»
«Дальше работает индукция по числу синеглазых…»

Ошибочные варианты (зафиксированы):

Прогон 3: модель утверждает, что кареглазые тоже уйдут на 101-й день.
Прогон 7: модель утверждает, что уйдут все 200 жителей на 100-й день

Ожидаемый результат

Корректный ответ должен содержать:

«в 100-ю ночь уйдут все синеглазые»
объяснение через общее знание (common knowledge)
доказательство через индукцию (1 → 2 → … → 100)
ошибка: «ничего не произойдёт»
ошибка: «уйдут все 200»
ошибка: «кареглазые уйдут на 101-ю ночь» (в этой формулировке теста это неверный вывод)

Ключевые маркеры успеха:
100-я ночь / все синеглазые уйдут / common knowledge / индукция

Выводы по работе модели

MiniMax-M2 в большинстве прогонов корректно решает задачу и воспроизводит правильный механизм: публичная фраза гостя превращает факт в общее знание, после чего запускается индуктивный “отсчёт”, и в 100-ю ночь синеглазые одновременно уходят.

Однако при серии прогонов проявилась нестабильность: в 2 случаях модель “додумала” поведение кареглазых и ошибочно расширила вывод (до ухода всех жителей либо ухода кареглазых на 101-й день). Это типичная зона риска для задач, где важно не “рассуждать шире”, а строго держаться классической логики постановки

Дополнительная информация

Тест R4.3 показывает, что MiniMax-M2 в целом понимает common knowledge и индукцию на классических задачах, но при многократных прогонах даёт заметный дрейф интерпретации: иногда модель неверно обобщает вывод на кареглазых.

Практический вывод: MiniMax-M2 можно использовать для reasoning-задач такого типа, но для стабильности результата нужны либо повторные прогоны (как в лаборатории), либо жёстче сформулированный критерий про кареглазых/условия ухода

Информация

ID теста: 901

Тип: Reasoning / Логика

Статус: fail

Модель: Minimax M2

Экосистема: MiniMax

Дата теста: 13.12.2025 23:28

Все тесты

Экосистемы