MiniMax M2 многошаговое рассуждение тест R2.1

[R2.1] MiniMax-M2 — многошаговое рассуждение на задаче про книгу

Дополнительная информация

В тесте R2.1 мы проверяем MiniMax-M2 на многошаговое рассуждение в простой текстовой задачке: книга на 120 страниц, часть уже прочитана, остаток нужно равномерно распределить по 5 дням.

Модель начала рассуждать корректно: вычислила 18 + 27 = 45, затем 120 − 45 = 75 и несколько раз перепроверила это значение. Однако дальше MiniMax-M2 так и не дошла до последнего шага (75 / 5) и не выдала финальный ответ в виде числа. Весь лимит max_tokens был израсходован на thinking-блок, после чего генерация оборвалась по причине stop_reason = max_tokens, а текстового ответа не появилось.

Этот тест показывает важную особенность MiniMax-M2 в Anthropic-совместимом режиме: при сложных или многословных рассуждениях модель может “залипать” во внутреннем thinking и не успевать сформулировать короткий итог, даже если сама логика шага за шагом строится правильно. Для продакшена это означает, что нужно либо ограничивать бюджет reasoning, либо повышать max_tokens и контролировать формат ответа отдельно.

При повышении max_tokens до 1000 языковая модель выдала идеальный ответ.

Информация

ID теста: 807

Тип:

Модель: Minimax M2

Экосистема: MiniMax

Дата теста: 09.12.2025 10:11

Все тесты