CLIP модель текст–изображение

Термин глоссария

CLIP


CLIP — модель, сопоставляющая изображения и текст через единое embedding-пространство, которое позволяет вычислять семантическую близость между визуальными и языковыми представлениями.

Определение

CLIP (Contrastive Language–Image Pre-training) — мультимодальная архитектура, одновременно обучающая визуальный энкодер (обычно ViT или РеsNet) и текстовый энкодер (Transformer) на огромных парах «изображение — текстовое описание». Модель оптимизирует контрастивную функцию потерь: изображения и тексты, относящиеся друг к другу, сближаются в embedding-пространстве, а нерелевантные — отталкиваются. Итоговое пространство позволяет модели выполнять нулевое обучение (zero-shot) на любых задачах, где требуется понимание связи текста и изображения.

Как работает

CLIP использует contrastive learning — обучение через сопоставление:

  • Embedding изображений — визуальный энкодер преобразует изображение в вектор фиксированной размерности.
  • Embedding текста — текстовый энкодер кодирует описание в аналогичный вектор.
  • Joint space — оба вектора нормируются и сравниваются через dot-product.
  • InfoNCE loss — функция потерь заставляет истинные пары сближаться, а неправильные — расходиться.

Ключевая особенность: модель не обучается на строгих классах, а учится понимать натуральный язык как пространство запросов. Это позволяет заменить традиционные классификаторы текстовыми промптами.

Где применяется

  • Zero-shot классификация изображений.
  • Поиск изображений по тексту и наоборот.
  • Мультимодальные ассистенты и большие VL-модели.
  • Фильтрация и сортировка данных (quality filtering в web-scale датасетах).
  • Основа визуальных энкодеров в LLaVA, Qwen-VL, DeepSeek-VL.

Практические примеры использования

CLIP используется как универсальный визуально-языковой энкодер. В zero-shot задачах можно написать текст “a photo of a cat”, и модель сравнит его с embedding изображения. Это позволяет выполнять классификацию без дообучения. CLIP применяют в контент-модерации, поиске изображений, категоризации, анализе документов и в качестве front-end модуля мультимодальных LLM.

В обучающих пайплайнах CLIP применяется как фильтр качества: изображения и подписи с низкой семантической согласованностью удаляются из датасета, что улучшает итоговые модели.

Ключевые свойства

  • Единое embedding-пространство для текста и изображений.
  • Zero-shot возможности за счёт текстовых промптов.
  • Высокая переносимость на новые задачи.
  • Гибкость в выборе визуального и текстового энкодера.
  • Подходит для крупных web-scale датасетов.

Проблемы и ограничения

  • Зависимость от качества веб-текстов — шум влияет на точность.
  • Ограниченность в сложных визуальных рассуждениях.
  • Предвзятости из обучающих данных масштабируются в модель.
  • Иногда плохо различает тонкие визуальные детали без дообучения.
  • Не предназначен для генерации изображений — только для эмбеддинга.

Преимущества и ограничения

  • Плюс: сильная zero-shot генерализация и универсальность.
  • Минус: ограниченная глубина семантического анализа сложных сцен.

Связанные термины

  • Vision Transformer (ViT)
  • Contrastive learning
  • Multimodal embeddings
  • LLaVA
  • Qwen-VL

Категория термина

Мультимодальность