Дочерняя структура МТС — MWS AI — представила крупную мультимодальную модель нового поколения Cotype VL. Это система на 32 млрд параметров модели, способная одновременно анализировать изображение, текст и структурированные данные, объединяя их в едином латентное пространство.
Архитектура построена на принципах Vision-Language Model: визуальный поток проходит через encoder-модуль, затем объединяется с текстовыми токенами в общем Transformer-стеке. Используются sparse attention, улучшенные attention head-блоки и гибридный механизм токен-мерджинга для ускорения работы с длинными последовательностями.
Модель уверенно справляется с reasoning-задачами: выделяет связи между объектами на изображении, понимает смысл сцены, интерпретирует визуальный контекст и может превращать его в генерацию текста — от суровых технических описаний до маркетинговых карточек товаров. Поддерживаются zero-shot и few-shot сценарии, а длина контекста существенно расширена.
Cotype VL ориентирована на бизнес-задачи:
— автоматизация контента для e-commerce;
— визуальная сортировка каталогов;
— обработка документов и форм;
— распознавание товаров, упаковок, этикеток;
— мультимодальный RAG с подключением векторная база данных (Milvus, Chroma DB или FAISS).
МТС заявляет, что модель проходит оптимизацию для on-device inference и сможет работать на локальных NPU-ускорителях — шаг к снижению инфраструктурных затрат и большей автономности решений.
Планы включают выпуск облегчённой 7B-версии, ориентированной на массовые бытовые устройства — от камер наблюдения до промышленных терминалов.