Image projector — слой или модуль, преобразующий визуальные эмбеддинги в последовательность токенов, которую может обработать языковая модель.
Определение
Image projector — это промежуточный модуль в мультимодальных моделях, который принимает эмбеддинги от image encoder (ViT, CLIP-ViT, CNN) и преобразует их в последовательность векторов, согласованных по размерности и структуре с токенами LLM. Он служит мостом между визуальной и текстовой подсистемами и определяет, насколько корректно языковая модель интерпретирует визуальный контекст.
Как работает
Image projector выполняет несколько функций:
- Dimension matching — преобразование размерности визуальных признаков в embedding-size языковой модели.
- Tokenization of features — нарезка визуальной карты признаков на токен-последовательность.
- Nonlinear projection — использование MLP/Transformer-адаптера для повышения выразительности.
- Structure alignment — приведение визуальных токенов к формату, который LLM интерпретирует как часть контекста.
- Optional compression — уменьшение числа визуальных токенов для снижения стоимости инференса.
Типовая архитектура image projector:
- Линейная проекция (linear layer) для приведения размерности;
- MLP или небольшой Transformer («vision-language adapter»);
- Позиционные эмбеддинги для визуальных токенов;
- Специальные токены start/end-of-vision.
Где применяется
- Мультимодальные LLM (LLaVA, Qwen-VL, DeepSeek-VL).
- VL-подсказки в ассистентах: описание изображений, OCR, VQA.
- Diffusion-кондиционирование через текстово-визуальные токены.
- RAG для изображений.
- Агенты с визуальным восприятием.
Практические примеры использования
В LLaVA используется MLP-проектор, который переводит ViT-эмбеддинги из CLIP в embedding space LLaMA. Qwen-VL применяет трансформерный projector для более точной адаптации визуальных токенов. В DeepSeek-VL projector дополнительно уменьшает число токенов, чтобы снизить стоимость инференса на длинных изображениях.
Проектор является критически важным модулем: если эмбеддинги несогласованы с текстовой моделью, она интерпретирует изображение неправильно, что приводит к ошибкам в ответах, описаниях и reasoning.
Ключевые свойства
- Обеспечивает совместимость визуальных и текстовых эмбеддингов.
- Определяет качество передачи визуальной информации в LLM.
- Может быть линейным или трансформерным.
- Контролирует количество визуальных токенов.
- Влияет на скорость инференса мультимодальной модели.
Проблемы и ограничения
- Недостаточная выразительность проектора искажает визуальные признаки.
- Слишком большое число токенов увеличивает стоимость инференса.
- Неверное выравнивание размерностей приводит к деградации качества.
- Training instability при обучении больших adapters.
- Domain shift между изображением и текстовыми токенами.
Преимущества и ограничения
- Плюс: даёт LLM возможность полноценно использовать визуальные данные.
- Минус: чувствителен к архитектуре image encoder и требует careful tuning.
Связанные термины
- Image encoder
- Vision Transformer (ViT)
- CLIP
- Multimodal encoder
- Feature projection