LongCat Image AI — open-weight генеративная модель от Meituan для text-to-image и image editing, построенная на 6B hybrid diffusion transformer (DiT) архитектуре. В отличие от 560B MoE текстовой линии LongCat AI, эта модель сфокусирована на визуальной генерации и компактности.
Ключевые характеристики
- Архитектура: 6B Hybrid Diffusion Transformer (DiT)
- Параметры: 6B
- Тип: text-to-image / image editing
- Языковая поддержка: китайский и английский (bilingual)
- Лицензия: open-weight (MIT)
- Публикация: 2025
Архитектурный подход
LongCat Image AI использует hybrid DiT-архитектуру, сочетающую элементы diffusion-подхода и трансформерной обработки. Несмотря на относительно компактный размер (6B), модель позиционируется как конкурентоспособная по качеству визуальной генерации по сравнению с более крупными системами.
В отличие от мультимодальной LongCat Flash Omni AI, LongCat Image AI является специализированной визуальной моделью и не использует 560B MoE-бекбон.
Функциональные возможности
- text-to-image генерация по текстовому описанию;
- instruction-based image editing;
- точный рендеринг текста внутри изображения;
- поддержка китайских и английских текстовых промптов;
- mid-training и post-training чекпоинты для кастомизации.
Сценарии применения
- маркетинговые и рекламные визуалы;
- генерация продуктовых изображений;
- редактирование изображений по текстовой инструкции;
- визуальные прототипы и концепт-арт;
- контент для социальных и e-commerce платформ.
Инженерные особенности
- Компактный размер (6B) снижает требования к VRAM.
- Open-weight модель позволяет локальный деплой.
- Поддержка полного training toolchain для дообучения.
- Оптимизация под текстовый рендеринг на китайском языке.
Сравнение с другими AI-моделями
По направлению визуальной генерации LongCat Image AI сопоставима с мультимодальными решениями вроде DeepSeek VL, однако DeepSeek VL делает ставку на vision-language анализ, тогда как LongCat Image фокусируется именно на генерации.
В отличие от универсальных ассистентов уровня YandexGPT 5 Lite или GigaChat AI, LongCat Image AI не является текстовой LLM и предназначена исключительно для визуального контента.
Ограничения
- Не является мультимодальной LLM.
- Публичные таблицы VL-бенчмарков представлены ограниченно.
- Параметры inference throughput детально не раскрываются.
Итог: LongCat Image AI — компактная 6B open-weight модель для text-to-image и image editing, ориентированная на разработчиков и компании, которым важна визуальная генерация с возможностью локального развертывания.