LongCat Flash Thinking AI — reasoning-версия 560B MoE модели от Meituan, построенная на базе Flash-архитектуры и дополненная специализированным reinforcement learning пайплайном. Это Large Reasoning Model (LRM), предназначенная для сложных STEM-зач, формальной логики, агентных сценариев и многошаговых вычислений.
Ключевые характеристики
- Общее число параметров: 560B
- Активные параметры: ~27B на токен
- Архитектура: Shortcut-connected Mixture-of-Experts
- Тип: Reasoning LRM
- Базовая линия: LongCat Flash Chat AI
- Лицензия: MIT (open-weight)
Отличие от Flash Chat
В отличие от базовой LongCat Flash Chat AI, версия Thinking проходит дополнительный двухфазный pipeline обучения:
- Long CoT Cold-Start — curriculum-обучение на длинных chain-of-thought данных;
- Large-scale RL через систему DORA (Dynamic Orchestration for Asynchronous Rollout);
- доменно-параллельное обучение экспертов (STEM, код, агентные задачи);
- объединение экспертов в единый Pareto-оптимальный reasoning-бекбон.
Это делает модель значительно более устойчивой в задачах с многошаговой логикой.
DORA и масштабируемое RL
LongCat Flash Thinking AI использует DORA — распределённую RL-систему с асинхронным rollout, позволяющую масштабировать обучение на десятках тысяч ускорителей.
Такой подход направлен не только на улучшение accuracy, но и на снижение вычислительных затрат при сложном reasoning.
Heavy Thinking Mode
Дополнительный режим Heavy Thinking Mode расширяет reasoning на этапе инференса:
- параллельное порождение нескольких логических траекторий;
- итеративное summarization промежуточных шагов;
- возможность рекурсивного углубления анализа.
Это реализует test-time scaling без изменения параметров модели.
Применение
- математические доказательства и олимпиадные задачи;
- формальная логика;
- генерация и анализ кода;
- агентные пайплайны с глубокой проверкой шагов;
- сложные аналитические запросы.
Сравнение с другими reasoning-моделями
По архитектурной философии LongCat Flash Thinking AI сопоставима с DeepSeek R1, поскольку обе модели используют MoE-подход и специализированный reasoning pipeline.
В сравнении с GigaChat 2 Pro, LongCat делает ставку на open-weight и самостоятельное развёртывание, а не на экосистемную интеграцию.
По направлению reasoning-позиционирования модель ближе к специализированным LRM, чем к универсальным ассистентам уровня YandexGPT 5 Pro.
Инженерные особенности
- 560B MoE с sparse routing;
- ~27B активных параметров на токен;
- domain-parallel RL;
- асинхронный rollout через DORA;
- поддержка reasoning-ориентированных режимов.
Ограничения
- Полные таблицы академических бенчмарков раскрываются ограниченно.
- Heavy Thinking Mode увеличивает время инференса.
- Публичная API-документация детально не описана.
Итог: LongCat Flash Thinking AI — это reasoning-ориентированная 560B MoE модель с масштабируемым RL-обучением, предназначенная для задач, где критична глубина логического анализа и устойчивость к многошаговым ошибкам.