Термин глоссария

Vision-Language Model

Vision-Language модели позволяют ИИ «смотреть и понимать». Они объединяют визуальный анализ и текстовые представления, что делает их универсальными инструментами для работы с изображениями.

Короткое определение

Vision-Language Model (VLM) — это модель, которая анализирует изображения и текст в едином пространстве и может описывать, интерпретировать или классифицировать визуальный контент.

Подробное объяснение

VLM — подвид мультимодальных моделей, но ориентированный именно на связку «текст + изображение». Её задача — понимать содержание картинки и выражать это словами: через описание, классификацию, анализ или ответы на вопросы.

В основе VLM лежат два компонента: — vision-encoder (например, CLIP-подобная архитектура), — language-decoder или language-модель. Вместе они превращают визуальные признаки в текстовые смыслы.

Такие модели способны определять объекты, действия, отношения между элементами, настроение сцены или даже ошибки в верстке интерфейсов.

VLM используются в продуктах вроде GPT-Vision, Gemini, Claude Vision, а в российской экосистеме — в инструментах анализа изображений от YandexGPT и VK.

Примеры использования

Описание содержимого фото.
Выделение объектов на изображении.
Анализ ошибок в интерфейсе или макете.
Подготовка alt-описаний для SEO.
Поиск по изображению через текстовые запросы.

Связанные термины

Мультимодальная модель
CLIP
Эмбеддинги
Vision Encoder
Transformer

Категория термина

Архитектуры моделей • Мультимодальность

Экосистемы