Термин глоссария

Мультимодальная модель

Мультимодальные модели стали логичным развитием языковых систем. Они работают не только с текстом, но и с изображениями, видео, аудио или таблицами, объединяя разные форматы данных в одном процессе анализа.

Короткое определение

Мультимодальная модель — это модель, которая способна воспринимать и обрабатывать несколько типов данных одновременно: текст, изображения, звук, видео и др.

Подробное объяснение

Классические языковые модели работали только с текстом. Но многие задачи требуют более широкого восприятия: визуального анализа, аудиоинформации, работы с диаграммами или сочетания разных источников. Мультимодальные модели решают это расширением входных каналов.

Внутри модель получает данные разных типов, преобразует их в эмбеддинги и выстраивает единое представление. Благодаря этому она может, например, объяснять содержание изображения, анализировать PDF, интерпретировать графики или описывать видео.

Такие модели используют смесь архитектур: Transformer для текста, vision-encoder для картинок и дополнительные модули для выравнивания представлений.

Мультимодальность открывает новые сценарии: от анализа документов со сканами до ассистентов, которые видят интерфейс пользователя и помогают в работе.

В экосистемах GPT, Claude, Gemini, GigaChat, YandexGPT мультимодальность — одно из ключевых направлений развития.

Примеры использования

Анализ изображений и формирование описаний.
Работа с PDF-документами с графиками и диаграммами.
Генерация кода по макету интерфейса.
Объяснение содержимого снимков экрана.
Описание видео и поиск объектов в кадре.

Связанные термины

Vision-Language Model
Эмбеддинги
Transformer
Генерация изображений

Категория термина

Архитектуры моделей • Мультимодальность

Экосистемы