[R1.4] MiniMax-M2 — тест на обращение логических условий
Дополнительная информация
В тесте R1.4 мы проверяем способность MiniMax-M2 работать с инверсией логических утверждений — типовая слабость многих моделей.
Условия:
- «Все красные объекты тяжёлые»
- «Некоторые тяжёлые объекты не красные»
Вопрос: «Верно ли, что все тяжёлые объекты обязаны быть красными?»
Модель дала правильный ответ («no»), корректно определив, что из посылок не следует обратное включение множества.
Однако, как и в предыдущих тестах R1.x, MiniMax-M2 раскрыла полный chain-of-thought, несмотря на прямой запрет в system-промпте. Это подтверждает системную особенность модели: логические задачи решаются хорошо, но контроль reasoning-блоков пока не реализован.
MiniMax-M2 успешно проходит логический тест, но требует пост-обработки для фильтрации скрытых рассуждений.