Depth estimation — восстановление глубины сцены и расстояния до объектов на основе одного или нескольких изображений.
Определение
Depth estimation — это задача компьютерного зрения, целью которой является вычисление карты глубины: значения расстояния до объектов в каждом пикселе изображения. Модели depth estimation используются в робототехнике, навигации, 3D-реконструкции, AR/VR и в современных генеративных системах как дополнительный канал структурной информации.
Как работает
Пайплайн depth estimation зависит от числа входных изображений:
1. Monocular depth estimation
Глубина восстанавливается по одиночному изображению. Модель учится предсказывать относительную или абсолютную глубину, используя:
- CNN/ResNet/UNet;
- Vision Transformers (DPT, MiDaS);
- Self-supervised методы через стерео-реконструкцию;
- Scale-invariant и ordinal losses.
2. Stereo depth estimation
Используются два изображения с известным базисом. Метод строит disparity map — смещение между пикселями двух видов, далее глубина вычисляется геометрически.
3. Multi-view depth estimation
Используется последовательность кадров с известной или неизвестной позой камеры. Применяются:
- Structure-from-Motion (SfM);
- NeRF/3D reconstruction pipelines;
- cost-volume aggregation в трансформерах.
В современных моделях распространены Vision Transformers и гибридные архитектуры, которые объединяют глобальные связи (self-attention) с локальными паттернами (CNN).
Где применяется
- Робототехника и автономная навигация.
- AR/VR системы и SLAM.
- 3D-реконструкция сцен.
- Генерация видео и изображений с учётом геометрии.
- Монтаж и композитинг.
- LiDAR-free depth perception в мобильных устройствах.
Практические примеры использования
Популярные модели MiDaS, DPT, ZoeDepth, Depth Anything используют реконструкцию глубины для задач AR, композитинга и стабилизации камеры. Depth estimation применяется в text-to-video и diffusion-моделях как источник геометрической структуры, улучшая реализм движения камеры и расположение объектов.
В робототехнике и автомобилях depth estimation служит основой для локализации и анализа препятствий. В NeRF-подобных системах глубина — ключевая компонента в создании 3D-сцен и новых видов изображения.
Ключевые свойства
- Восстановление структуры сцены.
- Работа в монокулярном, стерео и мультивью режимах.
- Интеграция с трансформерами и 3D-моделями.
- Использование в генеративных и мультимодальных системах.
- Чувствительность к шуму, освещению и текстурной однородности.
Проблемы и ограничения
- Моноокулярная глубина не имеет абсолютной шкалы без дополнительных данных.
- Сложность для прозрачных, отражающих и однородных поверхностей.
- Стерео требует точной калибровки камеры.
- Мультивью подходы чувствительны к ошибкам позы.
- Проблемы с реконструкцией дальних объектов.
Преимущества и ограничения
- Плюс: обеспечивает геометрическую структуру для 3D, AR, генерации.
- Минус: ошибки глубины приводят к артефактам и неверным реконструкциям.
Связанные термины
- 3D reconstruction
- Structure-from-Motion
- NeRF
- Stereo matching
- SLAM