[R2.4] MiniMax-M2 — проценты и вероятность на задаче со складами (reasoning-зависание)
Дополнительная информация
В тесте R2.4 мы проверяем MiniMax-M2 на гибридную задачу: проценты, повреждённые коробки и условная вероятность.
Условие: 150 коробок, 40% с электроникой, остальное — одежда. 10% коробок с электроникой и 5% коробок с одеждой повреждены. Нужно ответить, повреждённая коробка с большей вероятностью окажется с электроникой или с одеждой.
Модель корректно строит числовую картину:
— 60 коробок с электроникой, 90 с одеждой
— повреждённая электроника: 6 коробок
— повреждённая одежда: 4.5 коробки как дробное ожидание
Дальше MiniMax-M2 спотыкается о факт, что 4.5 — не целое число, и вместо того чтобы перейти к сравнению «6 против 4.5» и выдать простой ответ, уходит в дальнейшее рассуждение. В итоге весь лимит токенов тратится на thinking-блок, ответ пользователю («electronics» или «clothing») так и не появляется.
Этот тест подчёркивает характерный паттерн поведения MiniMax-M2 в сложных задачах на вероятности: с арифметикой модель справляется, но не умеет спокойно работать с дробными величинами как с математическим ожиданием, из-за чего зависает в рассуждениях и не доходит до финального вывода.