LongCat Video AI — open-weight модель от Meituan для генерации и продолжения видео. Линия включает LongCat-Video и LongCat-Video-Avatar, поддерживающие text-to-video, audio-text-to-video и сценарии персонажной анимации.
Ключевые характеристики
- Тип: text-to-video / video continuation
- Поддержка: Audio-Text-to-Video (AT2V), Audio-Text-Image-to-Video (ATI2V)
- Архитектурный подход: Block Sparse Attention
- Разрешение: до 720p
- Частота кадров: до 30fps
- Лицензия: open-weight
Архитектурные особенности
LongCat Video AI использует Block Sparse Attention — механизм разреженного внимания, оптимизированный для обработки длинных временных последовательностей. Это снижает вычислительную нагрузку при генерации видео по сравнению с плотными attention-механизмами.
В отличие от текстовой LongCat Flash Chat AI или reasoning-модели LongCat Flash Thinking AI, данная линия ориентирована исключительно на видео-генерацию.
Режимы работы
- Text-to-Video: генерация видео по текстовому описанию.
- Video Continuation: продолжение существующего видео.
- Audio-Text-to-Video: синтез видео с учётом аудиосигнала и текстового запроса.
- Avatar-режим: создание персонажной анимации.
Сценарии применения
- создание рекламных видеороликов;
- контент для социальных сетей;
- виртуальные аватары и цифровые персонажи;
- e-commerce демонстрационные видео;
- прототипирование видеоконтента.
Инженерный подход
LongCat Video AI позиционируется как open-weight решение, что позволяет:
- разворачивать модель локально;
- адаптировать под специфические домены;
- строить кастомные video-generation пайплайны;
- интегрировать модель в мультимодальные системы.
В связке с LongCat Flash Omni AI модель может использоваться как часть более широкой мультимодальной инфраструктуры.
Сравнение с другими мультимодальными решениями
В сравнении с DeepSeek VL, который ориентирован на vision-language анализ, LongCat Video AI фокусируется на генерации и продолжении видео.
В отличие от экосистемных решений уровня Алиса AI или GigaChat AI, LongCat Video AI не встроена в потребительскую экосистему, а ориентирована на инженерное развертывание и open-weight использование.
Ограничения
- Точные параметры модели (количество параметров) публично не раскрываются.
- Полные VL-бенчмарки представлены ограниченно.
- Публичная API-документация детализирована частично.
Итог: LongCat Video AI — open-weight модель для text-to-video и avatar-сценариев, ориентированная на разработчиков и компании, которым требуется масштабируемая видео-генерация с возможностью локального контроля инфраструктуры.