LongCat Video AI — модель для text-to-video и video continuation

LongCat Video AI — open-weight модель от Meituan для генерации и продолжения видео. Линия включает LongCat-Video и LongCat-Video-Avatar, поддерживающие text-to-video, audio-text-to-video и сценарии персонажной анимации.

Ключевые характеристики

Тип: text-to-video / video continuation
Поддержка: Audio-Text-to-Video (AT2V), Audio-Text-Image-to-Video (ATI2V)
Архитектурный подход: Block Sparse Attention
Разрешение: до 720p
Частота кадров: до 30fps
Лицензия: open-weight

Архитектурные особенности

LongCat Video AI использует Block Sparse Attention — механизм разреженного внимания, оптимизированный для обработки длинных временных последовательностей. Это снижает вычислительную нагрузку при генерации видео по сравнению с плотными attention-механизмами.

В отличие от текстовой LongCat Flash Chat AI или reasoning-модели LongCat Flash Thinking AI, данная линия ориентирована исключительно на видео-генерацию.

Режимы работы

Text-to-Video: генерация видео по текстовому описанию.
Video Continuation: продолжение существующего видео.
Audio-Text-to-Video: синтез видео с учётом аудиосигнала и текстового запроса.
Avatar-режим: создание персонажной анимации.

Сценарии применения

создание рекламных видеороликов;
контент для социальных сетей;
виртуальные аватары и цифровые персонажи;
e-commerce демонстрационные видео;
прототипирование видеоконтента.

Инженерный подход

LongCat Video AI позиционируется как open-weight решение, что позволяет:

разворачивать модель локально;
адаптировать под специфические домены;
строить кастомные video-generation пайплайны;
интегрировать модель в мультимодальные системы.

В связке с LongCat Flash Omni AI модель может использоваться как часть более широкой мультимодальной инфраструктуры.

Сравнение с другими мультимодальными решениями

В сравнении с DeepSeek VL, который ориентирован на vision-language анализ, LongCat Video AI фокусируется на генерации и продолжении видео.

В отличие от экосистемных решений уровня Алиса AI или GigaChat AI, LongCat Video AI не встроена в потребительскую экосистему, а ориентирована на инженерное развертывание и open-weight использование.

Ограничения

Точные параметры модели (количество параметров) публично не раскрываются.
Полные VL-бенчмарки представлены ограниченно.
Публичная API-документация детализирована частично.

Итог: LongCat Video AI — open-weight модель для text-to-video и avatar-сценариев, ориентированная на разработчиков и компании, которым требуется масштабируемая видео-генерация с возможностью локального контроля инфраструктуры.

Экосистемы

LongCat Video