Термин глоссария

Cross-modal retrieval

Cross-modal retrieval — поиск данных одной модальности по запросу из другой за счёт приведения всех модальностей к общему пространству эмбеддингов.

Определение

Cross-modal retrieval — это метод поиска, при котором запрос и данные представлены в разных модальностях (например, текст → изображение, изображение → видео, аудио → текст), но система умеет сравнивать их благодаря единому латентному пространству признаков. Модели обучаются так, чтобы данные разных типов, относящиеся к одному объекту или событию, располагались близко друг к другу в этом пространстве.

Задача является фундаментом мультимодальных моделей (CLIP, ALIGN, Florence) и используется как компонент в Video-LLM, мультимодальных ассистентах и retrieval-усиленных генеративных системах.

Как работает

Работа cross-modal retrieval состоит из нескольких основных этапов.

1. Модальные энкодеры

Для каждой модальности используется отдельный энкодер:

Изображение: CNN/ViT;
Видео: 3D CNN, TimeSformer, VideoMAE;
Текст: Transformer/LLM encoder;
Аудио: mel-encoder, wav2vec-like модели;

Каждый энкодер преобразует данные в вектор фиксированного размера.

2. Совместное латентное пространство

Цель — выровнять эмбеддинги так, чтобы соответствующие друг другу модальности были близки.

Contrastive learning — основной механизм (InfoNCE, CLIP loss), где позитивные пары приближаются, негативные удаляются.
Projection heads — небольшие MLP-трансформации для приведения эмбеддингов к одной размерности.
Normalization — обычно L2-нормировка для косинусной близости.

3. Поисковая часть

После обучения:

текстовый запрос сравнивается с базой изображений;
изображение сравнивается с библиотекой видео;
аудио может быть сопоставлено с текстовыми описаниями.

Сравнение выполняется через косинусную близость или dot-product.

4. Расширенные варианты

Cross-modal retrieval with reasoning — LLM помогает формировать уточнённые эмбеддинги.
Multi-hop retrieval — запрос → текст → изображение → видео.
Temporal-aware retrieval — поиск по коротким сегментам видео.

Где применяется

Поиск изображений по тексту (T2I retrieval).
Поиск видео по тексту.
Поиск фреймов в видео по изображению.
Аудио-видео поиск.
Реtrieval-усиление генеративных моделей.
Системы рекомендаций.
Каталогизация больших мультимодальных датасетов.

Практические примеры использования

CLIP и его наследники обучаются на сотнях миллионов пар текст–изображение. Такие модели обеспечивают сильное выравнивание между модальностями и позволяют находить изображения по сложным запросам. VideoCLIP, ALIGN, Florence, BLIP2 используют расширенные схемы для видео и последовательностей.

В Video-LLM retrieval применяется для поиска релевантных фрагментов видео. В генеративных моделях — для улучшения качества генерации через поиск подходящих примеров. В компаниях с большими медиабазами cross-modal retrieval используется для каталогизации и контент-аналитики.

Ключевые свойства

Единое векторное пространство для разных модальностей.
Contrastive learning как основной метод обучения.
Высокая масштабируемость для больших датасетов.
Универсальность: текст, изображение, аудио, видео.
Оптимизация под быстрый поиск (ANN).

Проблемы и ограничения

Неполное выравнивание для сложных сцен.
Проблемы с редкими концептами и доменами.
Трудность поиска в длинных видео.
Зависимость от качества данных в каждой модальности.
Влияние доминантных модальностей (overfitting к тексту/изображению).

Преимущества и ограничения

Плюс: быстрый и универсальный мультимодальный поиск.
Минус: ошибки выравнивания приводят к неправильным результатам.

Связанные термины

Contrastive learning
Joint embedding space
CLIP
Video retrieval
Multimodal learning

Категория термина

Мультимодальность

Экосистемы