Узнайте, как оценка глубины добавляет 3D-перспективу к компьютерному зрению. Изучите такие техники, как монокулярная глубина и стереозрение, с помощью моделей Ultralytics .
Оценка глубины — это важный процесс в компьютерном зрении, который определяет расстояние от объектов до камеры, фактически добавляя третье измерение к 2D-изображениям. Путем расчета расстояния до каждого пикселя в изображении эта техника создает карту глубины, то есть представление, в котором интенсивность пикселей соответствует расстоянию. Эта способность имитирует человеческое бинокулярное зрение, позволяя машинам воспринимать пространственные отношения и геометрию. Это основополагающая технология, позволяющая автономным системам безопасно перемещаться, понимать свое окружение и взаимодействовать с физическими объектами.
Существует несколько способов оценки глубины, от аппаратных решений до чисто программных подходов с использованием искусственного интеллекта.
Способность измерять расстояние способствует трансформации многих отраслей промышленности, обеспечивая работу приложений, требующих пространственного восприятия.
Хотя существуют специализированные модели глубины, в простых сценариях часто можно определять пространственные отношения, используя ограничительные рамки обнаружения объектов
в качестве прокси для расстояния (большие рамки часто означают более близкие объекты). Вот как загрузить модель
с помощью ultralytics пакет для detect , который является первым шагом во многих конвейерах с учетом глубины.
from ultralytics import YOLO
# Load the YOLO26 model
model = YOLO("yolo26n.pt")
# Run inference on an image
results = model("path/to/image.jpg")
# Process results
for result in results:
# Get bounding boxes (xyxy format)
boxes = result.boxes.xyxy
# Iterate through detections
for box in boxes:
print(f"Detected object at: {box}")
Важно отличать оценку глубины от смежных терминов. В то время как обнаружение объектов определяет, что и где находится объект в двумерном пространстве (с помощью ограничивающей рамки), оценка глубины определяет, на каком расстоянии он находится (ось Z). Аналогично, семантическая сегментация классифицирует пиксели по категориям (например, дорога, небо, автомобиль), тогда как оценка глубины присваивает этим же пикселям значение расстояния.
Недавние достижения в области генеративного ИИ сокращают разрыв между 2D- и 3D-видением. Такие технологии, как Neural Radiance Fields (NeRF), используют несколько 2D-изображений для реконструкции сложных 3D-сцен, в значительной степени опираясь на базовые принципы глубины. Кроме того, по мере совершенствования методов оптимизации моделей , становится возможным выполнять высокоточную оценку глубины на периферийных устройствах искусственного интеллекта. Это позволяет выполнять пространственные вычисления в реальном времени на таком небольшом оборудовании, как дроны или умные очки, с помощью таких платформ, как Ultralytics , для эффективного обучения и развертывания моделей.