Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Оценка глубины

Узнайте, как оценка глубины добавляет 3D-перспективу к компьютерному зрению. Изучите такие техники, как монокулярная глубина и стереозрение, с помощью моделей Ultralytics .

Оценка глубины — это важный процесс в компьютерном зрении, который определяет расстояние от объектов до камеры, фактически добавляя третье измерение к 2D-изображениям. Путем расчета расстояния до каждого пикселя в изображении эта техника создает карту глубины, то есть представление, в котором интенсивность пикселей соответствует расстоянию. Эта способность имитирует человеческое бинокулярное зрение, позволяя машинам воспринимать пространственные отношения и геометрию. Это основополагающая технология, позволяющая автономным системам безопасно перемещаться, понимать свое окружение и взаимодействовать с физическими объектами.

Основные механизмы и методы

Существует несколько способов оценки глубины, от аппаратных решений до чисто программных подходов с использованием искусственного интеллекта.

  • Системы стереовидения: Подобно человеческим глазам, стереовидение использует две камеры, расположенные рядом друг с другом. Алгоритмы анализируют небольшие различия, или диспаритет, между левым и правым изображениями, чтобы определить расстояние. Это в значительной степени зависит от точного сопоставления одинаковых точек в обоих кадрах.
  • Оценка глубины с помощью монокуляра: этот передовой метод оценивает глубину по одному изображению. Поскольку одномерная фотография не содержит данных о глубине, модели глубокого обучения обучаются на обширных наборах данных, чтобы распознавать визуальные сигналы, такие как перспектива, размер объекта и окклюзия. Современные архитектуры, такие как сверточные нейронные сети (CNN), превосходно справляются с этой задачей, позволяя получать трехмерную структуру со стандартных камер.
  • LiDAR и Time-of-Flight (ToF): Активные датчики, такие как LiDAR (Light Detection and Ranging) и камеры Time-of-Flight, излучают световые импульсы и измеряют время их возврата. Эти методы генерируют высокоточные облака точек и часто используются для сбора данных о реальных условиях на местности для обучения моделей машинного обучения.

Применение в реальном мире

Способность измерять расстояние способствует трансформации многих отраслей промышленности, обеспечивая работу приложений, требующих пространственного восприятия.

  • Автономное вождение: самоуправляемые автомобили используют оценку глубины для detect , измерения расстояния до других транспортных средств и безопасного перемещения по сложной дорожной сети. Это неотъемлемая часть 3D-обнаружения объектов для идентификации пешеходов и велосипедистов.
  • Робототехника и автоматизация: Роботы используют восприятие глубины для таких задач, как планирование траектории движения и манипулирование объектами. Например, складскому роботу необходимо точно знать, на каком расстоянии находится полка, чтобы взять с нее пакет, не столкнувшись с ней.
  • Дополненная реальность (AR): чтобы убедительно размещать виртуальные объекты в реальной сцене, устройства AR должны понимать трехмерную геометрию окружающей среды. Оценка глубины гарантирует, что виртуальные персонажи могут скрываться за реальной мебелью — концепция, известная как обработка окклюзии.

Пример кода: Оценка глубины монокуляром

Хотя существуют специализированные модели глубины, в простых сценариях часто можно определять пространственные отношения, используя ограничительные рамки обнаружения объектов в качестве прокси для расстояния (большие рамки часто означают более близкие объекты). Вот как загрузить модель с помощью ultralytics пакет для detect , который является первым шагом во многих конвейерах с учетом глубины.

from ultralytics import YOLO

# Load the YOLO26 model
model = YOLO("yolo26n.pt")

# Run inference on an image
results = model("path/to/image.jpg")

# Process results
for result in results:
    # Get bounding boxes (xyxy format)
    boxes = result.boxes.xyxy

    # Iterate through detections
    for box in boxes:
        print(f"Detected object at: {box}")

Связь с другими концепциями компьютерного зрения

Важно отличать оценку глубины от смежных терминов. В то время как обнаружение объектов определяет, что и где находится объект в двумерном пространстве (с помощью ограничивающей рамки), оценка глубины определяет, на каком расстоянии он находится (ось Z). Аналогично, семантическая сегментация классифицирует пиксели по категориям (например, дорога, небо, автомобиль), тогда как оценка глубины присваивает этим же пикселям значение расстояния.

Достижения в области пространственного искусственного интеллекта

Недавние достижения в области генеративного ИИ сокращают разрыв между 2D- и 3D-видением. Такие технологии, как Neural Radiance Fields (NeRF), используют несколько 2D-изображений для реконструкции сложных 3D-сцен, в значительной степени опираясь на базовые принципы глубины. Кроме того, по мере совершенствования методов оптимизации моделей , становится возможным выполнять высокоточную оценку глубины на периферийных устройствах искусственного интеллекта. Это позволяет выполнять пространственные вычисления в реальном времени на таком небольшом оборудовании, как дроны или умные очки, с помощью таких платформ, как Ultralytics , для эффективного обучения и развертывания моделей.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас