МТС выпустила мультимодальную модель Cotype VL

МТС AI представила Cotype VL — мультимодальную модель на 32 млрд параметров для анализа изображений и текста

~1 мин чтения

Дочерняя структура МТС — MWS AI — представила крупную мультимодальную модель нового поколения Cotype VL. Это система на 32 млрд параметров модели, способная одновременно анализировать изображение, текст и структурированные данные, объединяя их в едином латентное пространство.

Архитектура построена на принципах Vision-Language Model: визуальный поток проходит через encoder-модуль, затем объединяется с текстовыми токенами в общем Transformer-стеке. Используются sparse attention, улучшенные attention head-блоки и гибридный механизм токен-мерджинга для ускорения работы с длинными последовательностями.

Модель уверенно справляется с reasoning-задачами: выделяет связи между объектами на изображении, понимает смысл сцены, интерпретирует визуальный контекст и может превращать его в генерацию текста — от суровых технических описаний до маркетинговых карточек товаров. Поддерживаются zero-shot и few-shot сценарии, а длина контекста существенно расширена.

Cotype VL ориентирована на бизнес-задачи:
— автоматизация контента для e-commerce;
— визуальная сортировка каталогов;
— обработка документов и форм;
— распознавание товаров, упаковок, этикеток;
— мультимодальный RAG с подключением векторная база данных (Milvus, Chroma DB или FAISS).

МТС заявляет, что модель проходит оптимизацию для on-device inference и сможет работать на локальных NPU-ускорителях — шаг к снижению инфраструктурных затрат и большей автономности решений.

Планы включают выпуск облегчённой 7B-версии, ориентированной на массовые бытовые устройства — от камер наблюдения до промышленных терминалов.

QR Telegram

Подписывайтесь на наш Telegram

Новости, сводки и разборы

Читайте также