3B nesne algılamayı keşfedin: LiDAR, nokta bulutları ve derin öğrenme, otonom araçlar, robotik ve AR için doğru 3B sınırlayıcı kutuları nasıl oluşturur?
3D nesne algılama, üç boyutlu bir ortamda nesneleri tanımlayan, sınıflandıran ve konumlandıran gelişmiş bir bilgisayar görme (CV) tekniğidir. Görüntü düzleminde bir nesnenin etrafına düz bir dikdörtgen sınır kutusu çizen geleneksel 2D nesne algılamadan farklı olarak, 3D nesne algılama uzamsal bir küboidi tahmin eder. Bu hacim yedi temel parametre ile tanımlanır: merkez Bu hacim yedi temel parametre ile tanımlanır: merkez koordinatları (x, y, z), fiziksel boyutlar (uzunluk, genişlik, yükseklik) ve yönelim (yön açısı). Bu zengin uzamsal veriler, yapay zeka (AI) sistemlerinin nesnelerin sensöre göre gerçek boyutunu, mesafesini ve pozisyonunu algılamasına olanak tanıyarak dijital algılama ile fiziksel etkileşim arasındaki boşluğu doldurur.
Dünyayı hacimsel olarak anlamak için, 3D algılama modelleri geometrik bilgiler içeren girdi verilerine ihtiyaç duyar. Standart görüntü tanıma piksel yoğunluğuna dayanırken, 3D yöntemler genellikle görsel verileri derinlik ölçümleriyle birleştirmek için sensör füzyonunu kullanır.
Birincil veri kaynakları şunları içerir:
Derinlik ve hacim algılama yeteneği, 3D nesne algılamayı fiziksel dünya ile etkileşimde bulunan endüstriler için algılama motoru haline getirir. .
Bu iki teknoloji arasındaki fark, çıktılarının boyutları ve kullanım amaçlarıdır .
Basit bir kare kutudan daha fazla yönlendirme verisi gerektiren ancak tam 3D'den daha az hesaplama yükü gerektiren senaryolar için, Yönlendirilmiş Sınırlayıcı Kutu (OBB) algılama, verimli bir orta yol görevi görür. OBB, en yeni Ultralytics YOLO26 tarafından tam olarak desteklenir ve hava görüntülerinde veya karmaşık üretim hatlarında döndürülmüş algılamalara olanak tanır.
Tam 3D algılama genellikle VoxelNet veya PointPillars gibi özel mimariler gerektirirken, yüksek hızlı 2D algılayıcılar "frustum tabanlı" 3D boru hatlarında kritik bir rol oynar. Bu iş akışında, YOLO11 (veya daha yeni olan YOLO26) gibi bir model, 2D görüntüdeki nesneyi algılar. Bu 2D kutu daha sonra LiDAR nokta bulutunun ilgili bölümünü izole etmek için 3D uzaya ekstrüde edilir ve 3D model için arama alanını önemli ölçüde azaltır.
Aşağıdaki örnek, OBB modeliyle çıkarımın nasıl gerçekleştirileceğini göstermektedir.
ultralytics paket, tam 3D analizinin öncüsü olarak sıklıkla kullanılan dönme farkında algılama sağlar
:
from ultralytics import YOLO
# Load a pre-trained YOLO26 model capable of Oriented Bounding Box detection
model = YOLO("yolo26n-obb.pt")
# Perform inference on an image (e.g., aerial view or slanted objects)
results = model("https://docs.ultralytics.com/datasets/obb/dota-v2/")
# Display the rotated bounding box coordinates
for result in results:
# returns center_x, center_y, width, height, rotation
print(result.obb.xywhr)