Image projector в мультимодальных LLM

Термин глоссария

Image projector


Image projector — слой или модуль, преобразующий визуальные эмбеддинги в последовательность токенов, которую может обработать языковая модель.

Определение

Image projector — это промежуточный модуль в мультимодальных моделях, который принимает эмбеддинги от image encoder (ViT, CLIP-ViT, CNN) и преобразует их в последовательность векторов, согласованных по размерности и структуре с токенами LLM. Он служит мостом между визуальной и текстовой подсистемами и определяет, насколько корректно языковая модель интерпретирует визуальный контекст.

Как работает

Image projector выполняет несколько функций:

  • Dimension matching — преобразование размерности визуальных признаков в embedding-size языковой модели.
  • Tokenization of features — нарезка визуальной карты признаков на токен-последовательность.
  • Nonlinear projection — использование MLP/Transformer-адаптера для повышения выразительности.
  • Structure alignment — приведение визуальных токенов к формату, который LLM интерпретирует как часть контекста.
  • Optional compression — уменьшение числа визуальных токенов для снижения стоимости инференса.

Типовая архитектура image projector:

  • Линейная проекция (linear layer) для приведения размерности;
  • MLP или небольшой Transformer («vision-language adapter»);
  • Позиционные эмбеддинги для визуальных токенов;
  • Специальные токены start/end-of-vision.

Где применяется

  • Мультимодальные LLM (LLaVA, Qwen-VL, DeepSeek-VL).
  • VL-подсказки в ассистентах: описание изображений, OCR, VQA.
  • Diffusion-кондиционирование через текстово-визуальные токены.
  • RAG для изображений.
  • Агенты с визуальным восприятием.

Практические примеры использования

В LLaVA используется MLP-проектор, который переводит ViT-эмбеддинги из CLIP в embedding space LLaMA. Qwen-VL применяет трансформерный projector для более точной адаптации визуальных токенов. В DeepSeek-VL projector дополнительно уменьшает число токенов, чтобы снизить стоимость инференса на длинных изображениях.

Проектор является критически важным модулем: если эмбеддинги несогласованы с текстовой моделью, она интерпретирует изображение неправильно, что приводит к ошибкам в ответах, описаниях и reasoning.

Ключевые свойства

  • Обеспечивает совместимость визуальных и текстовых эмбеддингов.
  • Определяет качество передачи визуальной информации в LLM.
  • Может быть линейным или трансформерным.
  • Контролирует количество визуальных токенов.
  • Влияет на скорость инференса мультимодальной модели.

Проблемы и ограничения

  • Недостаточная выразительность проектора искажает визуальные признаки.
  • Слишком большое число токенов увеличивает стоимость инференса.
  • Неверное выравнивание размерностей приводит к деградации качества.
  • Training instability при обучении больших adapters.
  • Domain shift между изображением и текстовыми токенами.

Преимущества и ограничения

  • Плюс: даёт LLM возможность полноценно использовать визуальные данные.
  • Минус: чувствителен к архитектуре image encoder и требует careful tuning.

Связанные термины

  • Image encoder
  • Vision Transformer (ViT)
  • CLIP
  • Multimodal encoder
  • Feature projection

Категория термина

Мультимодальность