LongCat Flash Thinking AI — 560B reasoning MoE модель

LongCat Flash Thinking AI — reasoning-версия 560B MoE модели от Meituan, построенная на базе Flash-архитектуры и дополненная специализированным reinforcement learning пайплайном. Это Large Reasoning Model (LRM), предназначенная для сложных STEM-зач, формальной логики, агентных сценариев и многошаговых вычислений.

Ключевые характеристики

Общее число параметров: 560B
Активные параметры: ~27B на токен
Архитектура: Shortcut-connected Mixture-of-Experts
Тип: Reasoning LRM
Базовая линия: LongCat Flash Chat AI
Лицензия: MIT (open-weight)

Отличие от Flash Chat

В отличие от базовой LongCat Flash Chat AI, версия Thinking проходит дополнительный двухфазный pipeline обучения:

Long CoT Cold-Start — curriculum-обучение на длинных chain-of-thought данных;
Large-scale RL через систему DORA (Dynamic Orchestration for Asynchronous Rollout);
доменно-параллельное обучение экспертов (STEM, код, агентные задачи);
объединение экспертов в единый Pareto-оптимальный reasoning-бекбон.

Это делает модель значительно более устойчивой в задачах с многошаговой логикой.

DORA и масштабируемое RL

LongCat Flash Thinking AI использует DORA — распределённую RL-систему с асинхронным rollout, позволяющую масштабировать обучение на десятках тысяч ускорителей.

Такой подход направлен не только на улучшение accuracy, но и на снижение вычислительных затрат при сложном reasoning.

Heavy Thinking Mode

Дополнительный режим Heavy Thinking Mode расширяет reasoning на этапе инференса:

параллельное порождение нескольких логических траекторий;
итеративное summarization промежуточных шагов;
возможность рекурсивного углубления анализа.

Это реализует test-time scaling без изменения параметров модели.

Применение

математические доказательства и олимпиадные задачи;
формальная логика;
генерация и анализ кода;
агентные пайплайны с глубокой проверкой шагов;
сложные аналитические запросы.

Сравнение с другими reasoning-моделями

По архитектурной философии LongCat Flash Thinking AI сопоставима с DeepSeek R1, поскольку обе модели используют MoE-подход и специализированный reasoning pipeline.

В сравнении с GigaChat 2 Pro, LongCat делает ставку на open-weight и самостоятельное развёртывание, а не на экосистемную интеграцию.

По направлению reasoning-позиционирования модель ближе к специализированным LRM, чем к универсальным ассистентам уровня YandexGPT 5 Pro.

Инженерные особенности

560B MoE с sparse routing;
~27B активных параметров на токен;
domain-parallel RL;
асинхронный rollout через DORA;
поддержка reasoning-ориентированных режимов.

Ограничения

Полные таблицы академических бенчмарков раскрываются ограниченно.
Heavy Thinking Mode увеличивает время инференса.
Публичная API-документация детально не описана.

Итог: LongCat Flash Thinking AI — это reasoning-ориентированная 560B MoE модель с масштабируемым RL-обучением, предназначенная для задач, где критична глубина логического анализа и устойчивость к многошаговым ошибкам.

Экосистемы

Longcat Flash Thinking