Depth estimation в компьютерном зрении

Термин глоссария

Depth estimation


Depth estimation — восстановление глубины сцены и расстояния до объектов на основе одного или нескольких изображений.

Определение

Depth estimation — это задача компьютерного зрения, целью которой является вычисление карты глубины: значения расстояния до объектов в каждом пикселе изображения. Модели depth estimation используются в робототехнике, навигации, 3D-реконструкции, AR/VR и в современных генеративных системах как дополнительный канал структурной информации.

Как работает

Пайплайн depth estimation зависит от числа входных изображений:

1. Monocular depth estimation

Глубина восстанавливается по одиночному изображению. Модель учится предсказывать относительную или абсолютную глубину, используя:

  • CNN/ResNet/UNet;
  • Vision Transformers (DPT, MiDaS);
  • Self-supervised методы через стерео-реконструкцию;
  • Scale-invariant и ordinal losses.

2. Stereo depth estimation

Используются два изображения с известным базисом. Метод строит disparity map — смещение между пикселями двух видов, далее глубина вычисляется геометрически.

3. Multi-view depth estimation

Используется последовательность кадров с известной или неизвестной позой камеры. Применяются:

  • Structure-from-Motion (SfM);
  • NeRF/3D reconstruction pipelines;
  • cost-volume aggregation в трансформерах.

В современных моделях распространены Vision Transformers и гибридные архитектуры, которые объединяют глобальные связи (self-attention) с локальными паттернами (CNN).

Где применяется

  • Робототехника и автономная навигация.
  • AR/VR системы и SLAM.
  • 3D-реконструкция сцен.
  • Генерация видео и изображений с учётом геометрии.
  • Монтаж и композитинг.
  • LiDAR-free depth perception в мобильных устройствах.

Практические примеры использования

Популярные модели MiDaS, DPT, ZoeDepth, Depth Anything используют реконструкцию глубины для задач AR, композитинга и стабилизации камеры. Depth estimation применяется в text-to-video и diffusion-моделях как источник геометрической структуры, улучшая реализм движения камеры и расположение объектов.

В робототехнике и автомобилях depth estimation служит основой для локализации и анализа препятствий. В NeRF-подобных системах глубина — ключевая компонента в создании 3D-сцен и новых видов изображения.

Ключевые свойства

  • Восстановление структуры сцены.
  • Работа в монокулярном, стерео и мультивью режимах.
  • Интеграция с трансформерами и 3D-моделями.
  • Использование в генеративных и мультимодальных системах.
  • Чувствительность к шуму, освещению и текстурной однородности.

Проблемы и ограничения

  • Моноокулярная глубина не имеет абсолютной шкалы без дополнительных данных.
  • Сложность для прозрачных, отражающих и однородных поверхностей.
  • Стерео требует точной калибровки камеры.
  • Мультивью подходы чувствительны к ошибкам позы.
  • Проблемы с реконструкцией дальних объектов.

Преимущества и ограничения

  • Плюс: обеспечивает геометрическую структуру для 3D, AR, генерации.
  • Минус: ошибки глубины приводят к артефактам и неверным реконструкциям.

Связанные термины

  • 3D reconstruction
  • Structure-from-Motion
  • NeRF
  • Stereo matching
  • SLAM

Категория термина

Мультимодальность