3B nesne algılamayı keşfedin: LiDAR, nokta bulutları ve derin öğrenme, otonom araçlar, robotik ve AR için doğru 3B sınırlayıcı kutuları nasıl oluşturur?
3D nesne algılama karmaşık bir tanımlayan bilgisayarla görme (CV) tekniği, nesneleri üç boyutlu bir uzayda sınıflandırır ve konumlandırır. Geleneksel 2D'nin aksine düz bir dikdörtgen çizen nesne algılama görüntü düzlemindeki bir nesnenin etrafındaki sınırlayıcı kutu, 3D Nesne algılama, merkez koordinatları (x, y, z) ile tanımlanan bir küboid olan yönlendirilmiş bir 3B sınırlayıcı kutuyu tahmin eder, boyutlar (uzunluk, genişlik, yükseklik) ve yönlendirme (yön açısı). Bu özellik şunları sağlar yapay zeka (AI) sistemleri Fiziksel etkileşim için gerekli olan nesnelerin gerçek dünyadaki boyutunu, mesafesini ve duruşunu algılamak ve Navigasyon.
Derinlik ve hacmi algılamak için 3B nesne algılama modelleri, uzamsal geometriyi yakalayan veri kaynaklarına dayanır. 2D iken yöntemleri yalnızca piksel yoğunluğuna dayanırken, 3D yöntemleri gelişmiş sensörlerden gelen verileri işler:
Uzmanlaşmış mimariler bu verileri işler. Mesela, PointNet ham nokta bulutlarını doğrudan işlerken VoxelNet 3B alanı hacimsel ızgaralara böler (vokseller) konvolüsyonel işlemleri uygulamak için. Bu modeller, nesnelerin kesin 3D koordinatlarını ve yönelimlerini verir, Makinelerin bir nesnenin sadece ne olduğunu değil, aynı zamanda fiziksel olarak tam olarak nerede olduğunu anlamasını sağlamak Dünya.
Temel ayrım, mekansal boyutluluk ve sağlanan bilgilerde yatmaktadır:
Tam 3D ek yük olmadan kısmi uzamsal farkındalık gerektiren uygulamalar için, Yönlendirilmiş Sınırlayıcı Kutu (OBB) algılama olarak hizmet eder Bir orta yol olarak, havadan görünümlerde gemiler veya araçlar gibi nesnelere daha iyi uyması için 2B'de döndürülmüş sınırlayıcı kutuları tahmin eder.
3D nesne algılama, fiziksel dünya ile etkileşime giren endüstriler için bir algı motorudur:
Bir yandan YOLO11 öncelikle bir 2D dedektörüdür, bu birçok 3B algılama işlem hattında kritik bir rol oynar. "Frustum tabanlı algılama" olarak bilinen yaygın bir yaklaşım bir görüntüdeki ilgilenilen bölgeyi tanımlamak için yüksek hızlı bir 2D model kullanır. Bu 2D kutu daha sonra 3D uzaya ekstrüde edilir nokta bulutunu kırparak 3B model için arama alanını önemli ölçüde azaltır.
Aşağıdaki örnekte Ultralytics YOLO11 kullanılarak ilk 2D algılama adımının nasıl gerçekleştirileceği gösterilmektedir 3D kaldırma modülü için bir teklif olarak hizmet eder:
from ultralytics import YOLO
# Load the YOLO11 model (optimized for 2D detection)
model = YOLO("yolo11n.pt")
# Run inference on an image (e.g., from a vehicle camera)
results = model("path/to/driving_scene.jpg")
# In a 3D pipeline, these 2D boxes (x, y, w, h) are used to
# isolate the corresponding region in the LiDAR point cloud.
for result in results:
for box in result.boxes:
print(f"Class: {int(box.cls)}, 2D Box: {box.xywh.numpy()}")
