LongCat AI — модели: Flash, Thinking, Omni, Image и Video
Модель ИИ

LongCat (Meituan)

Семейство моделей и поколения

LongCat AI — крупная open-weight MoE AI-модель от Meituan с Flash-архитектурой, reasoning-линией и мультимодальной платформой.

Семейство моделей
NeuroCat Family

LongCat Flash Chat AI

базовая 560B MoE модель

MoE 560B agentic long context

LongCat Flash Chat AI — фундаментальная 560B Mixture-of-Experts модель от Meituan, построенная на Shortcut-connected MoE архитектуре с ~27B активных параметров на токен. Модель ориентирована на агентные сценарии, работу с длинными документами и orchestration-системы. Поддержка контекста до 128K токенов позволяет анализировать крупные технические базы знаний и многошаговые инструкции. Благодаря MIT-лицензии модель распространяется как open-weight и может использоваться для коммерческого локального развёртывания. Flash Chat служит базовым ядром всей линейки LongCat AI.

Период появления
2025
Роль в семействе
универсальная text-only LLM
Тип модели
Mixture-of-Experts (ScMoE)
Контекст и масштаб
до 128K токенов
Варианты и конфигурации
560B total / ~27B active
MoE 560B agentic long context

LongCat Flash Thinking AI

reasoning поколение

reasoning RL DORA STEM

LongCat Flash Thinking AI — reasoning-ориентированная версия 560B MoE модели, разработанная для сложных STEM-задач, формальной логики и генерации кода. Модель проходит двухфазный pipeline обучения: Long CoT Cold-Start и масштабируемое reinforcement learning через DORA framework. В архитектуре сохраняется MoE-бекбон с ~27B активных параметров, но добавляется доменно-параллельное обучение экспертов. Поддержка Heavy Thinking Mode позволяет масштабировать глубину рассуждения на этапе инференса. Эта линия позиционируется как Large Reasoning Model внутри экосистемы LongCat AI.

Период появления
2025–2026
Роль в семействе
Large Reasoning Model (LRM)
Тип модели
MoE reasoning модель
Контекст и масштаб
не раскрывается публично
Варианты и конфигурации
560B total / ~27B active
reasoning RL DORA STEM

LongCat Flash Omni AI

омнимодальная линия

omni multimodal audio vision video

LongCat Flash Omni AI — мультимодальная 560B MoE модель, объединяющая текст, изображение, аудио и видео в едином пространстве представлений. Архитектура сохраняет Shortcut-connected MoE с ~27B активных параметров и внедряет progressive multimodal injection. Модель поддерживает cross-modal анализ, speech recognition и мультимодальное взаимодействие в реальном времени. В отличие от отдельных vision-language решений, Omni строится как unified any-to-any AI-бекбон. Эта линия расширяет LongCat AI в сторону полноценной мультимодальной платформы.

Период появления
2025
Роль в семействе
any-to-any взаимодействие
Тип модели
multimodal MoE модель
Контекст и масштаб
не раскрывается публично
Варианты и конфигурации
560B total / ~27B active
omni multimodal audio vision video

LongCat Image AI

6B hybrid DiT линия

image diffusion text-to-image editing

LongCat Image AI — компактная 6B генеративная модель на базе hybrid diffusion transformer (DiT), предназначенная для text-to-image генерации и instruction-based редактирования изображений. Несмотря на меньший масштаб по сравнению с 560B MoE текстовой линией, модель демонстрирует высокую эффективность в визуальном рендеринге. Поддерживается двуязычный режим (китайский и английский). Open-weight распространение позволяет использовать модель для коммерческого деплоя и кастомного дообучения. LongCat Image формирует визуальный сегмент экосистемы LongCat AI.

Период появления
2025
Роль в семействе
text-to-image и image editing
Тип модели
Hybrid Diffusion Transformer
Контекст и масштаб
не применимо
Варианты и конфигурации
6B
image diffusion text-to-image editing

LongCat Video AI

видео-генерация

video avatar block sparse AT2V

LongCat Video AI — open-weight модель для text-to-video генерации, video continuation и avatar-сценариев с поддержкой 720p и 30fps. В архитектуре используется Block Sparse Attention для оптимизации обработки длинных временных последовательностей. Модель поддерживает режимы Audio-Text-to-Video и Audio-Text-Image-to-Video, расширяя мультимодальные возможности платформы. Предназначена для создания рекламного контента, цифровых персонажей и мультимедийных систем. Эта линия завершает формирование визуально-аудиального сегмента LongCat AI.

Период появления
2025
Роль в семействе
text-to-video и avatar-сценарии
Тип модели
Video transformer с Block Sparse Attention
Контекст и масштаб
не раскрывается публично
Варианты и конфигурации
параметры не раскрываются публично
video avatar block sparse AT2V