Cross-modal retrieval — поиск данных одной модальности по запросу из другой за счёт приведения всех модальностей к общему пространству эмбеддингов.
Определение
Cross-modal retrieval — это метод поиска, при котором запрос и данные представлены в разных модальностях (например, текст → изображение, изображение → видео, аудио → текст), но система умеет сравнивать их благодаря единому латентному пространству признаков. Модели обучаются так, чтобы данные разных типов, относящиеся к одному объекту или событию, располагались близко друг к другу в этом пространстве.
Задача является фундаментом мультимодальных моделей (CLIP, ALIGN, Florence) и используется как компонент в Video-LLM, мультимодальных ассистентах и retrieval-усиленных генеративных системах.
Как работает
Работа cross-modal retrieval состоит из нескольких основных этапов.
1. Модальные энкодеры
Для каждой модальности используется отдельный энкодер:
- Изображение: CNN/ViT;
- Видео: 3D CNN, TimeSformer, VideoMAE;
- Текст: Transformer/LLM encoder;
- Аудио: mel-encoder, wav2vec-like модели;
Каждый энкодер преобразует данные в вектор фиксированного размера.
2. Совместное латентное пространство
Цель — выровнять эмбеддинги так, чтобы соответствующие друг другу модальности были близки.
- Contrastive learning — основной механизм (InfoNCE, CLIP loss), где позитивные пары приближаются, негативные удаляются.
- Projection heads — небольшие MLP-трансформации для приведения эмбеддингов к одной размерности.
- Normalization — обычно L2-нормировка для косинусной близости.
3. Поисковая часть
После обучения:
- текстовый запрос сравнивается с базой изображений;
- изображение сравнивается с библиотекой видео;
- аудио может быть сопоставлено с текстовыми описаниями.
Сравнение выполняется через косинусную близость или dot-product.
4. Расширенные варианты
- Cross-modal retrieval with reasoning — LLM помогает формировать уточнённые эмбеддинги.
- Multi-hop retrieval — запрос → текст → изображение → видео.
- Temporal-aware retrieval — поиск по коротким сегментам видео.
Где применяется
- Поиск изображений по тексту (T2I retrieval).
- Поиск видео по тексту.
- Поиск фреймов в видео по изображению.
- Аудио-видео поиск.
- Retrieval-усиление генеративных моделей.
- Системы рекомендаций.
- Каталогизация больших мультимодальных датасетов.
Практические примеры использования
CLIP и его наследники обучаются на сотнях миллионов пар текст–изображение. Такие модели обеспечивают сильное выравнивание между модальностями и позволяют находить изображения по сложным запросам. VideoCLIP, ALIGN, Florence, BLIP2 используют расширенные схемы для видео и последовательностей.
В Video-LLM retrieval применяется для поиска релевантных фрагментов видео. В генеративных моделях — для улучшения качества генерации через поиск подходящих примеров. В компаниях с большими медиабазами cross-modal retrieval используется для каталогизации и контент-аналитики.
Ключевые свойства
- Единое векторное пространство для разных модальностей.
- Contrastive learning как основной метод обучения.
- Высокая масштабируемость для больших датасетов.
- Универсальность: текст, изображение, аудио, видео.
- Оптимизация под быстрый поиск (ANN).
Проблемы и ограничения
- Неполное выравнивание для сложных сцен.
- Проблемы с редкими концептами и доменами.
- Трудность поиска в длинных видео.
- Зависимость от качества данных в каждой модальности.
- Влияние доминантных модальностей (overfitting к тексту/изображению).
Преимущества и ограничения
- Плюс: быстрый и универсальный мультимодальный поиск.
- Минус: ошибки выравнивания приводят к неправильным результатам.
Связанные термины
- Contrastive learning
- Joint embedding space
- CLIP
- Video retrieval
- Multimodal learning