Derinlik tahmininin robotik, AR/VR ve 3D algıyı güçlendirmek için görüntülerden (stereo, ToF, LiDAR ve monoküler derin öğrenme) nasıl derinlik haritaları oluşturduğunu keşfedin.
Derinlik tahmini, temel bir görevdir belirlenmesini içeren bilgisayarla görme (CV) Bir sahnedeki nesnelerin kameraya göre uzaklığı. Bir görüntüdeki her piksel için derinlik değerini hesaplayarak, Bu işlem, standart iki boyutlu verileri genellikle derinlik haritası olarak adlandırılan zengin bir 3D temsile dönüştürür. Bu yetenek, makinelerin uzamsal ilişkileri algılayarak ortamlarda gezinmelerini sağlamak için gereklidir, nesneleri manipüle edebilir ve insan görsel sisteminin yaptığı gibi dünyanın geometrisini anlayabilir.
Derinliğin tahmin edilmesi, donanım yoğun aktif algılamadan aşağıdaki yöntemlere kadar çeşitli yöntemlerle gerçekleştirilebilir yazılım odaklı derin öğrenme (DL) yaklaşımları.
Üçüncü boyutu algılama yeteneği, çeşitli sektörlerde kritik işlevselliğin kilidini açar.
Otonom araçlar alanında, derinlik tahmini, güvenlik ve navigasyon için hayati önem taşır. Sürücüsüz araçlar engelleri detect etmek için kamera verilerini LiDAR ile birleştirir, diğer araçlara olan mesafeyi tahmin edebilir ve yolun gerçek zamanlı bir haritasını oluşturabilir. Benzer şekilde, içinde robotik, derinlik algısı otomatik kolların öğelerin konumunu ve şeklini doğru bir şekilde değerlendirerek "alma ve yerleştirme" işlemlerini gerçekleştirme üretim otomasyonu iş akışları.
İçin artırılmış gerçeklik deneyimlerin sürükleyici olması için sanal nesnelerin fiziksel dünyayla gerçekçi bir şekilde etkileşime girmesi gerekir. Derinlik tahmini mobil cihazların bir odanın geometrisini anlamasını sağlayarak sanal mobilya veya karakterlerin yerleştirilmesine olanak tanır veya gerçek dünyadaki nesnelerin arkasına gizlenerek (oklüzyon) kullanıcı deneyimini büyük ölçüde iyileştirir.
Özel derinlik modelleri mevcut olsa da, geliştiriciler genellikle 2D
nesne algılama kalibrasyon verilerinin yanı sıra
yaklaşık mesafe. Bu ultralytics kütüphanesi, çözüm modülü aracılığıyla bunu basitleştirerek kullanıcıların
Sınırlayıcı kutu konumlarına göre izlenen nesnelerin mesafesini tahmin eder.
Aşağıdaki kodda nasıl kullanılacağı gösterilmektedir YOLO11 nesneleri track ve yaklaşık değerlerini hesaplamak için kameradan uzaklık.
import cv2
from ultralytics import YOLO, solutions
# Load the YOLO11 model for object detection
model = YOLO("yolo11n.pt")
# Initialize the DistanceCalculation solution
# This estimates distance based on bounding box centroids
dist_obj = solutions.DistanceCalculation(names=model.names, view_img=True)
# Open a video file or camera stream
cap = cv2.VideoCapture("path/to/video.mp4")
while cap.isOpened():
success, im0 = cap.read()
if not success:
break
# Track objects and calculate distance
tracks = model.track(im0, persist=True, show=False)
im0 = dist_obj.start_process(im0, tracks)
# Display result (or save/process further)
cv2.imshow("Distance Estimation", im0)
if cv2.waitKey(1) == ord("q"):
break
cap.release()
cv2.destroyAllWindows()
Derinlik tahminini yapay zeka ekosistemindeki benzer terimlerden ayırmak önemlidir:
Üretken Yapay Zeka alanındaki son gelişmeler ve temel modeller 2D ve 3D arasındaki boşluğu daha da kapatıyor. Gibi teknikler Sinirsel Parlaklık Alanları (NeRF) yeniden yapılandırmak için seyrek 2D görüntüler kullanır temel derinlik ilkelerine dayanan karmaşık 3B sahneler. As model optimizasyonu gelişir, son derece hassas derinlik tahmini, yeni nesil akıllı dronlara güç veren uç cihazlarda uygulanabilir hale geliyor, hizmet robotları ve uzamsal bilgi işlem cihazları.