[M1.1] MiniMax-M2 — базовая арифметика (17 × 23)
Исходный запрос
17 × 23 = ?
Полученный результат
Прогон 1: 17 × 23 = 391 + пояснения и LaTeX
Прогон 2: 17 × 23 = 391 + пояснения
Прогон 3: 391
Прогон 4: пояснения + \boxed{391}
Прогон 5: 391
Прогон 6: 391
Прогон 7: пояснения + \boxed{391}
Прогон 8: 391
Прогон 9: 391
Прогон 10: 391
Ожидаемый результат
391
Выводы по работе модели
Модель стабильно вычисляет результат, однако в большинстве прогонов нарушает формат ответа.
Вместо числового значения модель часто возвращает выражение или пояснение.
Формально корректный ответ получен в 6 из 10 прогонов.
Проблема не в вычислениях, а в дисциплине следования инструкции.
Для числовых тестов требуется жёсткое ограничение формата вывода
Модель систематически:
добавляет математические выражения,
использует LaTeX-разметку,
сопровождает ответ текстовыми пояснениями.
Для автоматических пайплайнов и API-тестирования такое поведение является критическим
Вместо числового значения модель часто возвращает выражение или пояснение.
Формально корректный ответ получен в 6 из 10 прогонов.
Проблема не в вычислениях, а в дисциплине следования инструкции.
Для числовых тестов требуется жёсткое ограничение формата вывода
Модель систематически:
добавляет математические выражения,
использует LaTeX-разметку,
сопровождает ответ текстовыми пояснениями.
Для автоматических пайплайнов и API-тестирования такое поведение является критическим
Дополнительная информация
Параметры запроса:
model: MiniMax-M2
temperature: 0.0
max_tokens: 200
Системная инструкция:
«You are taking part in an automated benchmark.
Output ONLY a single number.
No text, no explanations, no symbols, no formatting.»