[R3.2] MiniMax-M2 — логическая задача «Мини-Эйнштейн»
Исходный запрос
3 дома: красный, зелёный, синий. Жители: немец, швед, датчанин. Немец в красном. Швед не в среднем. Зелёный левее синего. Кто в зелёном?
response = client.messages.create(
model="MiniMax-M2",
max_tokens=4096,
temperature=0.3,
messages=[{"role": "user", "content": test['prompt']}]
)
Полученный результат
В зелёном доме живёт датчанин.
Ожидаемый результат
Модель должна: Корректно учесть фиксированный порядок домов (слева направо) Применить ограничение «немец в красном» Исключить шведа из среднего дома Определить единственно возможного жителя зелёного дома Ожидаемый ответ: датчанин
Выводы по работе модели
После исправления условий тест стал логически валидным и однозначным. MiniMax-M2 корректно выполнил дедуктивный вывод и пришёл к правильному результату.
Отдельно стоит отметить, что модель не просто дала верный ответ, но и самостоятельно восстановила цепочку рассуждений, последовательно исключив невозможные варианты. Это говорит о способности удерживать несколько логических ограничений одновременно и корректно их комбинировать.
Небольшим отклонением от условий теста стало нарушение формата one_word — модель добавила пояснение. Однако это не повлияло на корректность итогового ответа
Отдельно стоит отметить, что модель не просто дала верный ответ, но и самостоятельно восстановила цепочку рассуждений, последовательно исключив невозможные варианты. Это говорит о способности удерживать несколько логических ограничений одновременно и корректно их комбинировать.
Небольшим отклонением от условий теста стало нарушение формата one_word — модель добавила пояснение. Однако это не повлияло на корректность итогового ответа
Дополнительная информация
Тест R3.2 показывает, что MiniMax-M2 уверенно справляется с задачами на базовую дедукцию при чётко заданных и непротиворечивых условиях. В отличие от первой версии теста, где задача была логически неопределённой, обновлённая формулировка позволила модели продемонстрировать полноценное reasoning-поведение.
MiniMax-M2 можно считать надёжным для логических головоломок малого и среднего размера, при условии корректной постановки задачи. Тест также подчёркивает важность строгой формализации условий при оценке reasoning-способностей моделей в лабораторных сценариях