Термин глоссария

CLIP

CLIP — модель, сопоставляющая изображения и текст через единое embedding-пространство, которое позволяет вычислять семантическую близость между визуальными и языковыми представлениями.

Определение

CLIP (Contrastive Language–Image Pre-training) — мультимодальная архитектура, одновременно обучающая визуальный энкодер (обычно ViT или РеsNet) и текстовый энкодер (Transformer) на огромных парах «изображение — текстовое описание». Модель оптимизирует контрастивную функцию потерь: изображения и тексты, относящиеся друг к другу, сближаются в embedding-пространстве, а нерелевантные — отталкиваются. Итоговое пространство позволяет модели выполнять нулевое обучение (zero-shot) на любых задачах, где требуется понимание связи текста и изображения.

Как работает

CLIP использует contrastive learning — обучение через сопоставление:

Embedding изображений — визуальный энкодер преобразует изображение в вектор фиксированной размерности.
Embedding текста — текстовый энкодер кодирует описание в аналогичный вектор.
Joint space — оба вектора нормируются и сравниваются через dot-product.
InfoNCE loss — функция потерь заставляет истинные пары сближаться, а неправильные — расходиться.

Ключевая особенность: модель не обучается на строгих классах, а учится понимать натуральный язык как пространство запросов. Это позволяет заменить традиционные классификаторы текстовыми промптами.

Где применяется

Zero-shot классификация изображений.
Поиск изображений по тексту и наоборот.
Мультимодальные ассистенты и большие VL-модели.
Фильтрация и сортировка данных (quality filtering в web-scale датасетах).
Основа визуальных энкодеров в LLaVA, Qwen-VL, DeepSeek-VL.

Практические примеры использования

CLIP используется как универсальный визуально-языковой энкодер. В zero-shot задачах можно написать текст “a photo of a cat”, и модель сравнит его с embedding изображения. Это позволяет выполнять классификацию без дообучения. CLIP применяют в контент-модерации, поиске изображений, категоризации, анализе документов и в качестве front-end модуля мультимодальных LLM.

В обучающих пайплайнах CLIP применяется как фильтр качества: изображения и подписи с низкой семантической согласованностью удаляются из датасета, что улучшает итоговые модели.

Ключевые свойства

Единое embedding-пространство для текста и изображений.
Zero-shot возможности за счёт текстовых промптов.
Высокая переносимость на новые задачи.
Гибкость в выборе визуального и текстового энкодера.
Подходит для крупных web-scale датасетов.

Проблемы и ограничения

Зависимость от качества веб-текстов — шум влияет на точность.
Ограниченность в сложных визуальных рассуждениях.
Предвзятости из обучающих данных масштабируются в модель.
Иногда плохо различает тонкие визуальные детали без дообучения.
Не предназначен для генерации изображений — только для эмбеддинга.

Преимущества и ограничения

Плюс: сильная zero-shot генерализация и универсальность.
Минус: ограниченная глубина семантического анализа сложных сцен.

Связанные термины

Vision Transformer (ViT)
Contrastive learning
Multimodal embeddings
LLaVA
Qwen-VL

Категория термина

Мультимодальность

Экосистемы