MiniMax M2 проценты и вероятность тест R2.4

[R2.4] MiniMax-M2 — проценты и вероятность на задаче со складами (reasoning-зависание)

Дополнительная информация

В тесте R2.4 мы проверяем MiniMax-M2 на гибридную задачу: проценты, повреждённые коробки и условная вероятность.

Условие: 150 коробок, 40% с электроникой, остальное — одежда. 10% коробок с электроникой и 5% коробок с одеждой повреждены. Нужно ответить, повреждённая коробка с большей вероятностью окажется с электроникой или с одеждой.

Модель корректно строит числовую картину:
— 60 коробок с электроникой, 90 с одеждой
— повреждённая электроника: 6 коробок
— повреждённая одежда: 4.5 коробки как дробное ожидание

Дальше MiniMax-M2 спотыкается о факт, что 4.5 — не целое число, и вместо того чтобы перейти к сравнению «6 против 4.5» и выдать простой ответ, уходит в дальнейшее рассуждение. В итоге весь лимит токенов тратится на thinking-блок, ответ пользователю («electronics» или «clothing») так и не появляется.

Этот тест подчёркивает характерный паттерн поведения MiniMax-M2 в сложных задачах на вероятности: с арифметикой модель справляется, но не умеет спокойно работать с дробными величинами как с математическим ожиданием, из-за чего зависает в рассуждениях и не доходит до финального вывода.

Информация

ID теста: 810

Тип:

Модель: Minimax M2

Экосистема: MiniMax

Дата теста: 09.12.2025 10:33

Все тесты