Термин глоссария

Image encoder

Image encoder — компонент, который преобразует изображение в плотный эмбеддинг, отражающий его визуальные признаки, структуру и семантику, пригодный для использования в мультимодальных и генеративных моделях.

Определение

Image encoder — это архитектура (CNN, ViT, гибридная или специализированная), которая принимает изображение и преобразует его в фиксированного размера векторное представление. Этот эмбеддинг используется для классификации, поиска, сопоставления с текстом, генерации, сегментации, reasoning и других высокоуровневых задач. Image encoder является обязательным компонентом мультимодальных моделей: CLIP, LLaVA, Qwen-VL, Flamingo, DeepSeek-VL, diffusion-моделей с conditioning и других систем.

Как работает

Работа image encoder зависит от архитектуры, но включает общие элементы:

Предобработка — изменение размера, нормализация, преобразование в патчи (для ViT), аугментации.
Feature extraction — извлечение признаков:
- CNN: свёрточные фильтры, pooling, нелинейности;
- ViT: patch embedding + self-attention;
- Hybrid: CNN-стем + трансформерные блоки;
- Masked autoencoders: реконструктивные цели.
Проекция в embedding space — финальный вектор фиксированной размерности.
Нормализация — L2-normalization для контрастивных моделей.

Эмбеддинги могут представлять:

глобальные признаки (single-vector embedding);
плотные пространственные карты (для детекции и сегментации);
многоуровневые представления (multi-scale encoders).

Где применяется

Мультимодальные модели: сопоставление изображений и текста.
Поиск по изображениям, классификация, категоризация.
Детекторы, сегментационные сети, трекинг.
Условные генеративные модели — diffusion, autoregressive VLM.
RAG для изображений — визуальный retrieval.

Практические примеры использования

В CLIP image encoder создаёт визуальный embedding, сопоставимый с текстовым. В LLaVA и Qwen-VL encoder используется для извлечения признаков, которые затем «проецируются» в токен-пространство языковой модели. В diffusion-моделях encoder применяется для conditioning: например, ControlNet, T2I-Adapter и DreamBooth используют визуальные эмбеддинги как управляющий сигнал.

В промышленности image encoders применяются в инспекции дефектов, распознавании объектов, видеонаблюдении, анализе медицинских изображений и робототехнике.

Ключевые свойства

Преобразование изображения в компактное векторное представление.
Поддержка разных архитектур (CNN/ViT/Hybrid).
Совместимость с мультимодальными агрегаторами.
Возможность обучения contrastive, supervised или self-supervised методами.
Использование глобальных или пространственных признаков.

Проблемы и ограничения

Высокие вычислительные затраты при больших разрешениях.
ViT-энкодеры требуют больших датасетов для качественного обучения.
Ограниченная интерпретируемость внутренних признаков.
Чувствительность к доменной несовместимости (domain shift).
Эмбеддинги не всегда хорошо передают мелкие детали без fine-tuning.

Преимущества и ограничения

Плюс: универсальное визуальное представление, пригодное для множества задач.
Минус: требует аккуратного обучения и адаптации под домены.

Связанные термины

CLIP
Vision Transformer (ViT)
Contrastive learning
Multimodal encoder
Feature extraction

Категория термина

Мультимодальность

Экосистемы