Глоссарий

Оценка глубины

Узнайте, как оценка глубины создает карты глубины из изображений - стерео, ToF, LiDAR и монокулярное глубокое обучение - для робототехники, AR/VR и 3D-восприятия.

Оценка глубины - фундаментальная задача в компьютерного зрения (КВ), которая заключается в определении расстояние объектов в сцене относительно камеры. Вычисляя значение глубины для каждого пикселя изображения, этот процесс преобразует стандартные двумерные данные в насыщенное 3D-представление, часто называемое картой глубины. Эта способность необходима машинам для восприятия пространственных отношений, что позволяет им ориентироваться в окружающей среде, манипулировать объектами и понимать геометрию мира, как это делает зрительная система человека.

Механизмы оценки глубины

Оценка глубины может быть достигнута с помощью различных методов, начиная от аппаратно-интенсивного активного зондирования и заканчивая программно-управляемых подходов глубокого обучения (DL).

Стереовидение: Вдохновленные бинокулярным зрением человека, В системах стереозрения используются две камеры расположенные на небольшом расстоянии друг от друга. Анализируя диспропорцию - разницу в горизонтальном положении объекта между левым и правым изображениями, алгоритмы могут математически триангулировать расстояние. Этот метод в значительной степени опирается на надежное надежного сопоставления признаков в разных кадрах.
Монокулярная оценка глубины: Эта техника оценивает глубину по одному двумерному изображению, что является сложной задачей. задача, поскольку в одном изображении отсутствует явная информация о глубине. Современные Конволюционные нейронные сети (CNN) обучаются на огромных массивах данных, чтобы распознавать монокулярные сигналы, такие как размер объекта, перспектива и окклюзия. Исследования в области монокулярного предсказания глубины значительно продвинулись вперед, Это позволяет стандартным камерам делать выводы о трехмерных структурах.
Активные датчики (LiDAR и ToF): В отличие от пассивных систем камер, активные датчики излучают сигналы для измерения расстояния. LiDAR (Light Detection and Ranging) использует лазерные импульсы для создания точных 3D облаков точек, а времяпролетные камеры (ToF) измеряют время, необходимое для возвращения света на датчик. Эти технологии позволяют получить высокоточные данные данные, которые часто используются для обучения моделей машинного обучения (ML).

Применение в реальном мире

Способность воспринимать третье измерение открывает важнейшие функциональные возможности в различных отраслях.

Автономные системы и робототехника

В области автономных транспортных средств оценка глубины Оценка глубины жизненно важна для безопасности и навигации. Самостоятельно управляемые автомобили комбинируют данные с камер и LiDAR для detect препятствий, оценки расстояния до других автомобилей и построения карты дороги в реальном времени. Аналогичным образом робототехнике восприятие глубины позволяет автоматическим манипуляторам выполнять операции "подобрать и разместить", точно определяя положение и форму предметов в автоматизации производства.

Дополненная реальность (AR)

Для дополненная реальность Чтобы впечатления от использования дополненной реальности были захватывающими, виртуальные объекты должны реалистично взаимодействовать с физическим миром. Оценка глубины позволяет мобильным устройствам понимать геометрию помещения, что позволяет размещать виртуальную мебель или персонажей на на полу или спрятать за реальными объектами (окклюзия), что значительно улучшает пользовательский опыт.

Пример на Python : Аппроксимация расстояния с помощью YOLO11

Хотя существуют специальные модели глубины, разработчики часто используют 2D обнаружение объектов наряду с данными калибровки для приблизительного определения расстояния. Сайт ultralytics Библиотека упрощает эту задачу с помощью модуля решений, позволяя пользователям оценивать расстояние до отслеживаемых объектов на основе их положения в ограничительной рамке.

Следующий код демонстрирует, как использовать YOLO11 для track объектов и вычисления их приблизительного расстояние от камеры.

import cv2
from ultralytics import YOLO, solutions

# Load the YOLO11 model for object detection
model = YOLO("yolo11n.pt")

# Initialize the DistanceCalculation solution
# This estimates distance based on bounding box centroids
dist_obj = solutions.DistanceCalculation(names=model.names, view_img=True)

# Open a video file or camera stream
cap = cv2.VideoCapture("path/to/video.mp4")

while cap.isOpened():
    success, im0 = cap.read()
    if not success:
        break

    # Track objects and calculate distance
    tracks = model.track(im0, persist=True, show=False)
    im0 = dist_obj.start_process(im0, tracks)

    # Display result (or save/process further)
    cv2.imshow("Distance Estimation", im0)
    if cv2.waitKey(1) == ord("q"):
        break

cap.release()
cv2.destroyAllWindows()