CLIP — модель, сопоставляющая изображения и текст через единое embedding-пространство, которое позволяет вычислять семантическую близость между визуальными и языковыми представлениями.
Определение
CLIP (Contrastive Language–Image Pre-training) — мультимодальная архитектура, одновременно обучающая визуальный энкодер (обычно ViT или РеsNet) и текстовый энкодер (Transformer) на огромных парах «изображение — текстовое описание». Модель оптимизирует контрастивную функцию потерь: изображения и тексты, относящиеся друг к другу, сближаются в embedding-пространстве, а нерелевантные — отталкиваются. Итоговое пространство позволяет модели выполнять нулевое обучение (zero-shot) на любых задачах, где требуется понимание связи текста и изображения.
Как работает
CLIP использует contrastive learning — обучение через сопоставление:
- Embedding изображений — визуальный энкодер преобразует изображение в вектор фиксированной размерности.
- Embedding текста — текстовый энкодер кодирует описание в аналогичный вектор.
- Joint space — оба вектора нормируются и сравниваются через dot-product.
- InfoNCE loss — функция потерь заставляет истинные пары сближаться, а неправильные — расходиться.
Ключевая особенность: модель не обучается на строгих классах, а учится понимать натуральный язык как пространство запросов. Это позволяет заменить традиционные классификаторы текстовыми промптами.
Где применяется
- Zero-shot классификация изображений.
- Поиск изображений по тексту и наоборот.
- Мультимодальные ассистенты и большие VL-модели.
- Фильтрация и сортировка данных (quality filtering в web-scale датасетах).
- Основа визуальных энкодеров в LLaVA, Qwen-VL, DeepSeek-VL.
Практические примеры использования
CLIP используется как универсальный визуально-языковой энкодер. В zero-shot задачах можно написать текст “a photo of a cat”, и модель сравнит его с embedding изображения. Это позволяет выполнять классификацию без дообучения. CLIP применяют в контент-модерации, поиске изображений, категоризации, анализе документов и в качестве front-end модуля мультимодальных LLM.
В обучающих пайплайнах CLIP применяется как фильтр качества: изображения и подписи с низкой семантической согласованностью удаляются из датасета, что улучшает итоговые модели.
Ключевые свойства
- Единое embedding-пространство для текста и изображений.
- Zero-shot возможности за счёт текстовых промптов.
- Высокая переносимость на новые задачи.
- Гибкость в выборе визуального и текстового энкодера.
- Подходит для крупных web-scale датасетов.
Проблемы и ограничения
- Зависимость от качества веб-текстов — шум влияет на точность.
- Ограниченность в сложных визуальных рассуждениях.
- Предвзятости из обучающих данных масштабируются в модель.
- Иногда плохо различает тонкие визуальные детали без дообучения.
- Не предназначен для генерации изображений — только для эмбеддинга.
Преимущества и ограничения
- Плюс: сильная zero-shot генерализация и универсальность.
- Минус: ограниченная глубина семантического анализа сложных сцен.
Связанные термины
- Vision Transformer (ViT)
- Contrastive learning
- Multimodal embeddings
- LLaVA
- Qwen-VL