Архивы Coding / Код — Re: II — Искусственный интеллект и стартапы

Тип теста: Coding / Код

Инструменты

[C2.2] MiniMax-M2 — тест генерации Python-модуля Inventory

Поведение MiniMax-M2 под токенным давлением В ходе тестирования выявлено, что MiniMax-M2 чувствительно реагирует на размер выделенного max_tokens, особенно при задачах, где требуется длинный reasoning-блок.Это…

10.12.2025

Читать →
Инструменты

[C2.1] MiniMax-M2 — стабильность генерации Python-модуля UserStore

Тест C2.1 проверяет способность MiniMax-M2 стабильно генерировать небольшой Python-модуль без комментариев, объяснений и отклонений от задания.Модуль содержит класс UserStore с четырьмя методами: инициализация, добавление…

10.12.2025

Читать →
Инструменты

[C1.9] MiniMax-M2 — JavaScript-валидация email (поведение на регулярных выражениях)

Критичное наблюдение MiniMax-M2 требует существенно более высоких лимитов reasoning, чем ожидалось даже на простых задачах. На коротких потолках модель: переходит в глубокий reasoning-мод, начинает…

10.12.2025

Читать →
Инструменты

[C1.8] MiniMax-M2 — функция capitalizeFirstLetter в JavaScript (порог устойчивости reasoning)

В тесте C1.8 MiniMax-M2 должна была выполнить простое задание —сгенерировать лаконичную JavaScript-функцию capitalizeFirstLetter строго в формате«код без пояснений». Однако поведение модели оказалось чувствительным к…

09.12.2025

Читать →
Инструменты

[C1.4] MiniMax-M2 — базовая генерация SQL

MiniMax-M2 уверенно справляется с задачами генерации SQL-запросов: вывод чистый, синтаксис корректен, формат соблюдён. Однако модель продолжает раскрывать скрытые reasoning-блоки, что подтверждает системную уязвимость (reasoning-leak).В…

09.12.2025

Читать →
Инструменты

[C1.3] MiniMax-M2 — генерация Python-класса Counter (частичное прохождение)

MiniMax-M2 успешно сгенерировала корректный Python-класс Counter, полностью удовлетворяющий требованиям задачи.Однако тест C1.3 показал несостоятельность модели в дисциплине формата: вместо «только кода» MiniMax-M2вернула подробный reasoning-блок,…

09.12.2025

Читать →
Инструменты

[C1.2] MiniMax-M2 — генерация функции sum_to_n(n) (нарушение формата)

В тесте C1.2 MiniMax-M2 должен был вернуть только код функции sum_to_n(n), без пояснений и рассуждений.Однако модель проигнорировала формат: сгенерировала thinking-блок, начала рассуждать вслух, обсуждать…

09.12.2025

Читать →