[R4.4] MiniMax-M2 — задача «Сумма и произведение»

Исходный запрос

Prompt, отправленный модели:

Два различных натуральных чисел от 2 до 100 (числа могут совпадать).
S знает сумму, P — произведение.
S говорит: «Не знаю».
P: «Знал, что не знаешь».
S: «Теперь знаю».
P: «Теперь и я».
Какие это числа?


Вызов модели:

response = client.messages.create(
    model="MiniMax-M2",
    max_tokens=4096,
    temperature=0.3,
    messages=[{"role": "user", "content": test['prompt']}]
)

Полученный результат

4 и 13

(Модель также дала краткое логическое обоснование через последовательную фильтрацию возможных пар.)

Ожидаемый результат

Модель должна:

Корректно интерпретировать эпистемические высказывания S и P
Учесть ограничения «S не знает» и «P знал, что S не знает»
Применить многошаговую дедукцию и сузить пространство вариантов
Найти единственную допустимую пару чисел

Ожидаемый ответ:

4 и 13

Выводы по работе модели

MiniMax-M2 корректно решил классическую задачу «Сумма и произведение», продемонстрировав устойчивое многошаговое reasoning-поведение. Модель правильно поняла, что ключ к задаче — не сами числа, а знание о знании участников диалога и последовательное исключение невозможных вариантов.

Рассуждение соответствует каноническому решению задачи и не содержит логических пробелов. Формат ответа соблюдён, хотя модель, как и в других сложных reasoning-тестах, склонна давать развёрнутое пояснение даже при запросе конечного результата

Дополнительная информация

Тест R4.4 показывает, что MiniMax-M2 уверенно справляется с эпистемическими логическими задачами, где важна реконструкция цепочек знания и незнания нескольких агентов. Модель корректно удерживает контекст диалога и применяет дедукцию на нескольких уровнях.

Практический вывод: MiniMax-M2 надёжен для сложных задач логического анализа и рассуждений о знаниях других агентов, при условии контроля объёма ответа в прикладных сценариях.

Информация

ID теста: 902

Тип: Reasoning / Логика

Статус: pass

Модель: Minimax M2

Экосистема: MiniMax

Дата теста: 14.12.2025 10:20

Все тесты

Экосистемы