LongCat Video AI — модель для text-to-video и video continuation
Модель ИИ

LongCat Video

LongCat Video
NeuroCat & LongCat Video

LongCat Video AI — open-weight модель от Meituan для генерации и продолжения видео. Линия включает LongCat-Video и LongCat-Video-Avatar, поддерживающие text-to-video, audio-text-to-video и сценарии персонажной анимации.

Ключевые характеристики

  • Тип: text-to-video / video continuation
  • Поддержка: Audio-Text-to-Video (AT2V), Audio-Text-Image-to-Video (ATI2V)
  • Архитектурный подход: Block Sparse Attention
  • Разрешение: до 720p
  • Частота кадров: до 30fps
  • Лицензия: open-weight

Архитектурные особенности

LongCat Video AI использует Block Sparse Attention — механизм разреженного внимания, оптимизированный для обработки длинных временных последовательностей. Это снижает вычислительную нагрузку при генерации видео по сравнению с плотными attention-механизмами.

В отличие от текстовой LongCat Flash Chat AI или reasoning-модели LongCat Flash Thinking AI, данная линия ориентирована исключительно на видео-генерацию.

Режимы работы

  • Text-to-Video: генерация видео по текстовому описанию.
  • Video Continuation: продолжение существующего видео.
  • Audio-Text-to-Video: синтез видео с учётом аудиосигнала и текстового запроса.
  • Avatar-режим: создание персонажной анимации.

Сценарии применения

  • создание рекламных видеороликов;
  • контент для социальных сетей;
  • виртуальные аватары и цифровые персонажи;
  • e-commerce демонстрационные видео;
  • прототипирование видеоконтента.

Инженерный подход

LongCat Video AI позиционируется как open-weight решение, что позволяет:

  • разворачивать модель локально;
  • адаптировать под специфические домены;
  • строить кастомные video-generation пайплайны;
  • интегрировать модель в мультимодальные системы.

В связке с LongCat Flash Omni AI модель может использоваться как часть более широкой мультимодальной инфраструктуры.

Сравнение с другими мультимодальными решениями

В сравнении с DeepSeek VL, который ориентирован на vision-language анализ, LongCat Video AI фокусируется на генерации и продолжении видео.

В отличие от экосистемных решений уровня Алиса AI или GigaChat AI, LongCat Video AI не встроена в потребительскую экосистему, а ориентирована на инженерное развертывание и open-weight использование.

Ограничения

  • Точные параметры модели (количество параметров) публично не раскрываются.
  • Полные VL-бенчмарки представлены ограниченно.
  • Публичная API-документация детализирована частично.

Итог: LongCat Video AI — open-weight модель для text-to-video и avatar-сценариев, ориентированная на разработчиков и компании, которым требуется масштабируемая видео-генерация с возможностью локального контроля инфраструктуры.