[R2.1] MiniMax-M2 — многошаговое рассуждение на задаче про книгу
Дополнительная информация
В тесте R2.1 мы проверяем MiniMax-M2 на многошаговое рассуждение в простой текстовой задачке: книга на 120 страниц, часть уже прочитана, остаток нужно равномерно распределить по 5 дням.
Модель начала рассуждать корректно: вычислила 18 + 27 = 45, затем 120 − 45 = 75 и несколько раз перепроверила это значение. Однако дальше MiniMax-M2 так и не дошла до последнего шага (75 / 5) и не выдала финальный ответ в виде числа. Весь лимит max_tokens был израсходован на thinking-блок, после чего генерация оборвалась по причине stop_reason = max_tokens, а текстового ответа не появилось.
Этот тест показывает важную особенность MiniMax-M2 в Anthropic-совместимом режиме: при сложных или многословных рассуждениях модель может “залипать” во внутреннем thinking и не успевать сформулировать короткий итог, даже если сама логика шага за шагом строится правильно. Для продакшена это означает, что нужно либо ограничивать бюджет reasoning, либо повышать max_tokens и контролировать формат ответа отдельно.
При повышении max_tokens до 1000 языковая модель выдала идеальный ответ.