LongCat Image AI — модель для text-to-image и image editing

LongCat Image AI — open-weight генеративная модель от Meituan для text-to-image и image editing, построенная на 6B hybrid diffusion transformer (DiT) архитектуре. В отличие от 560B MoE текстовой линии LongCat AI, эта модель сфокусирована на визуальной генерации и компактности.

Ключевые характеристики

Архитектура: 6B Hybrid Diffusion Transformer (DiT)
Параметры: 6B
Тип: text-to-image / image editing
Языковая поддержка: китайский и английский (bilingual)
Лицензия: open-weight (MIT)
Публикация: 2025

Архитектурный подход

LongCat Image AI использует hybrid DiT-архитектуру, сочетающую элементы diffusion-подхода и трансформерной обработки. Несмотря на относительно компактный размер (6B), модель позиционируется как конкурентоспособная по качеству визуальной генерации по сравнению с более крупными системами.

В отличие от мультимодальной LongCat Flash Omni AI, LongCat Image AI является специализированной визуальной моделью и не использует 560B MoE-бекбон.

Функциональные возможности

text-to-image генерация по текстовому описанию;
instruction-based image editing;
точный рендеринг текста внутри изображения;
поддержка китайских и английских текстовых промптов;
mid-training и post-training чекпоинты для кастомизации.

Сценарии применения

маркетинговые и рекламные визуалы;
генерация продуктовых изображений;
редактирование изображений по текстовой инструкции;
визуальные прототипы и концепт-арт;
контент для социальных и e-commerce платформ.

Инженерные особенности

Компактный размер (6B) снижает требования к VRAM.
Open-weight модель позволяет локальный деплой.
Поддержка полного training toolchain для дообучения.
Оптимизация под текстовый рендеринг на китайском языке.

Сравнение с другими AI-моделями

По направлению визуальной генерации LongCat Image AI сопоставима с мультимодальными решениями вроде DeepSeek VL, однако DeepSeek VL делает ставку на vision-language анализ, тогда как LongCat Image фокусируется именно на генерации.

В отличие от универсальных ассистентов уровня YandexGPT 5 Lite или GigaChat AI, LongCat Image AI не является текстовой LLM и предназначена исключительно для визуального контента.

Ограничения

Не является мультимодальной LLM.
Публичные таблицы VL-бенчмарков представлены ограниченно.
Параметры inference throughput детально не раскрываются.

Итог: LongCat Image AI — компактная 6B open-weight модель для text-to-image и image editing, ориентированная на разработчиков и компании, которым важна визуальная генерация с возможностью локального развертывания.

Экосистемы

LongCat Image