Термин глоссария

Image projector

Image projector — слой или модуль, преобразующий визуальные эмбеддинги в последовательность токенов, которую может обработать языковая модель.

Определение

Image projector — это промежуточный модуль в мультимодальных моделях, который принимает эмбеддинги от image encoder (ViT, CLIP-ViT, CNN) и преобразует их в последовательность векторов, согласованных по размерности и структуре с токенами LLM. Он служит мостом между визуальной и текстовой подсистемами и определяет, насколько корректно языковая модель интерпретирует визуальный контекст.

Как работает

Image projector выполняет несколько функций:

Dimension matching — преобразование размерности визуальных признаков в embedding-size языковой модели.
Tokenization of features — нарезка визуальной карты признаков на токен-последовательность.
Nonlinear projection — использование MLP/Transformer-адаптера для повышения выразительности.
Structure alignment — приведение визуальных токенов к формату, который LLM интерпретирует как часть контекста.
Optional compression — уменьшение числа визуальных токенов для снижения стоимости инференса.

Типовая архитектура image projector:

Линейная проекция (linear layer) для приведения размерности;
MLP или небольшой Transformer («vision-language adapter»);
Позиционные эмбеддинги для визуальных токенов;
Специальные токены start/end-of-vision.

Где применяется

Мультимодальные LLM (LLaVA, Qwen-VL, DeepSeek-VL).
VL-подсказки в ассистентах: описание изображений, OCR, VQA.
Diffusion-кондиционирование через текстово-визуальные токены.
RAG для изображений.
Агенты с визуальным восприятием.

Практические примеры использования

В LLaVA используется MLP-проектор, который переводит ViT-эмбеддинги из CLIP в embedding space LLaMA. Qwen-VL применяет трансформерный projector для более точной адаптации визуальных токенов. В DeepSeek-VL projector дополнительно уменьшает число токенов, чтобы снизить стоимость инференса на длинных изображениях.

Проектор является критически важным модулем: если эмбеддинги несогласованы с текстовой моделью, она интерпретирует изображение неправильно, что приводит к ошибкам в ответах, описаниях и reasoning.

Ключевые свойства

Обеспечивает совместимость визуальных и текстовых эмбеддингов.
Определяет качество передачи визуальной информации в LLM.
Может быть линейным или трансформерным.
Контролирует количество визуальных токенов.
Влияет на скорость инференса мультимодальной модели.

Проблемы и ограничения

Недостаточная выразительность проектора искажает визуальные признаки.
Слишком большое число токенов увеличивает стоимость инференса.
Неверное выравнивание размерностей приводит к деградации качества.
Training instability при обучении больших adapters.
Domain shift между изображением и текстовыми токенами.

Преимущества и ограничения

Плюс: даёт LLM возможность полноценно использовать визуальные данные.
Минус: чувствителен к архитектуре image encoder и требует careful tuning.

Связанные термины

Image encoder
Vision Transformer (ViT)
CLIP
Multimodal encoder
Feature projection

Категория термина

Мультимодальность

Экосистемы