LongCat Flash Chat AI — базовая 560B Mixture-of-Experts модель от Meituan, ориентированная на агентные сценарии, длинный контекст и инженерную эффективность. Это non-thinking foundation model в линейке LongCat AI, построенная на Shortcut-connected MoE с активацией ~27B параметров на токен.
Архитектура и масштаб
- Общее число параметров: 560B
- Активные параметры: ~27B на токен
- Тип архитектуры: Shortcut-connected Mixture-of-Experts (ScMoE)
- Контекст: до 128K токенов
- Лицензия: MIT (open-weight)
- FP8-версия: доступна (Flash-Chat-FP8)
MoE-архитектура позволяет активировать только часть параметров на каждый токен, снижая вычислительную нагрузку по сравнению с dense-моделями аналогичного масштаба.
Позиционирование в линейке LongCat AI
Flash Chat — это универсальная text-only LLM без специализированного reasoning-RL пайплайна. В отличие от LongCat Flash Thinking, модель не оптимизирована под глубокие математические доказательства или формальную логику, но демонстрирует высокую устойчивость в агентных сценариях и длинных диалогах.
Агентные сценарии и orchestration
LongCat Flash Chat AI разрабатывалась как foundation-модель для agentic use-cases:
- многошаговые инструкции;
- chain-of-tools пайплайны;
- автономные действия в рамках оркестрационных систем;
- работа с длинными документами и кодовыми базами.
Контекст 128K токенов делает модель применимой для анализа крупных технических документов и корпоративных данных.
Производительность и инференс
Flash-линия оптимизирована под latency и throughput. Sparse-активация экспертов (~27B активных параметров из 560B) обеспечивает баланс между масштабом и скоростью вывода.
Доступна FP8-версия модели, что дополнительно снижает требования к памяти и ускоряет инференс.
Open-weight и коммерческое использование
LongCat Flash Chat AI распространяется под лицензией MIT. Это позволяет:
- локальный деплой в корпоративном контуре;
- коммерческое использование;
- кастомное дообучение;
- интеграцию в собственные AI-сервисы.
Сравнение с другими крупными AI-моделями
По архитектурной философии LongCat Flash Chat AI ближе к DeepSeek V3 — обе используют MoE-подход и ориентированы на инженерную эффективность.
В отличие от GigaChat MAX, LongCat делает ставку на open-weight распространение и MIT-лицензию.
По экосистемной интеграции модель отличается от YandexGPT 5 Pro, который тесно встроен в сервисную инфраструктуру Яндекса, тогда как LongCat ориентирован на самостоятельный развёртываемый стек.
Ограничения
- Не является специализированной reasoning-моделью.
- Полные академические бенчмарки в публичных материалах раскрываются ограниченно.
- Официальная публичная API-документация детально не описана.
Итог: LongCat Flash Chat AI — это крупная open-weight MoE модель с длинным контекстом и агентной архитектурой, ориентированная на разработчиков и корпоративные сценарии, где важны масштаб и контроль над инфраструктурой.