MiniMax M2 reasoning Anthropic SDK тест

[R1.1] MiniMax-M2 — задача с коробками (Anthropic SDK, корректный вывод)

Дополнительная информация

Что проверяли

Тестируем MiniMax-M2 на классической логической задаче с тремя коробками («Шоколад», «Карамель», «Смешанные»), где все подписи заведомо неверные и нужно за один вытянутый объект определить содержимое всех коробок.

Цель — посмотреть, как модель ведёт себя в рекомендованном режиме через Anthropic SDK, и что она делает с блоком thinking.

Поведение модели

  • Модель строит подробную цепочку рассуждений в блоке thinking: перебирает возможные конфигурации, объясняет, почему коробка «Смешанные» точно не может быть смешанной, и как по одной конфете восстановить разметку всех коробок.
  • Финальный текстовый ответ совпадает с эталонным решением: нужно тянуть конфету из коробки «Смешанные».
  • Объяснение краткое и понятное, без лишних деталей, основной «мясной» анализ лежит в hidden-thinking.

Выводы по тесту

В режиме Anthropic SDK MiniMax-M2 адекватно решает классический reasoning-пазл:

  • логика не разваливается;
  • скрытая цепочка рассуждений помогает отладке и анализу;
  • пользователь видит аккуратный короткий ответ.

По сравнению с устаревшим Chat Completions API, где ответ обрывался на <think>, этот режим показывает ожидаемое поведение и лучше подходит для лабораторных тестов reasoning-задач.

Информация

ID теста: 803

Тип:

Статус:

Модель: Minimax M2

Экосистема: MiniMax

Дата теста: 08.12.2025 22:36

Все тесты