Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

3B Nesne Algılama

3B nesne algılamayı keşfedin: LiDAR, nokta bulutları ve derin öğrenme, otonom araçlar, robotik ve AR için doğru 3B sınırlayıcı kutuları nasıl oluşturur?

3D nesne algılama karmaşık bir tanımlayan bilgisayarla görme (CV) tekniği, nesneleri üç boyutlu bir uzayda sınıflandırır ve konumlandırır. Geleneksel 2D'nin aksine düz bir dikdörtgen çizen nesne algılama görüntü düzlemindeki bir nesnenin etrafındaki sınırlayıcı kutu, 3D Nesne algılama, merkez koordinatları (x, y, z) ile tanımlanan bir küboid olan yönlendirilmiş bir 3B sınırlayıcı kutuyu tahmin eder, boyutlar (uzunluk, genişlik, yükseklik) ve yönlendirme (yön açısı). Bu özellik şunları sağlar yapay zeka (AI) sistemleri Fiziksel etkileşim için gerekli olan nesnelerin gerçek dünyadaki boyutunu, mesafesini ve duruşunu algılamak ve Navigasyon.

3D Nesne Algılama Nasıl Çalışır?

Derinlik ve hacmi algılamak için 3B nesne algılama modelleri, uzamsal geometriyi yakalayan veri kaynaklarına dayanır. 2D iken yöntemleri yalnızca piksel yoğunluğuna dayanırken, 3D yöntemleri gelişmiş sensörlerden gelen verileri işler:

  • LiDAR (Işık Algılama ve Mesafe Ölçümü): Kesin mesafeleri ölçmek için lazer darbeleri yayar ve a olarak bilinen seyrek bir 3B temsil oluşturur. nokta bulutu.
  • Stereo Kameralar: Binoküler görüşü simüle etmek için iki mercek kullanın, eşitsizlik haritaları aracılığıyla derinliği hesaplayın 3D yapıyı yeniden yapılandırmak için.
  • Monoküler Kameralar: Kullanmak derin öğrenme (DL) ile tek bir kaynaktan derinlik çıkarımı görüntüler, genellikle "sözde-LiDAR" teknikleri olarak adlandırılır.

Uzmanlaşmış mimariler bu verileri işler. Mesela, PointNet ham nokta bulutlarını doğrudan işlerken VoxelNet 3B alanı hacimsel ızgaralara böler (vokseller) konvolüsyonel işlemleri uygulamak için. Bu modeller, nesnelerin kesin 3D koordinatlarını ve yönelimlerini verir, Makinelerin bir nesnenin sadece ne olduğunu değil, aynı zamanda fiziksel olarak tam olarak nerede olduğunu anlamasını sağlamak Dünya.

3D ve 2D Nesne Algılama

Temel ayrım, mekansal boyutluluk ve sağlanan bilgilerde yatmaktadır:

  • 2D Nesne Algılama: Görüntü uzayında (pikseller) çalışır. Bir sınırlayıcı kutu çıktısı verir (min_x, min_y, max_x, max_y) bir nesnenin kamera çerçevesindeki konumunu gösterir, ancak derinlik veya mutlak boyuttan yoksundur.
  • 3D Nesne Algılama: Dünya uzayında (metre/birim) çalışır. Aşağıdakileri hesaplayan bir 3D küboid çıkarır derinlik, fiziksel boyutlar ve döndürme için. Bu, oklüzyonu daha iyi ele alır ve hassas mesafeye izin verir Ölçüm.

Tam 3D ek yük olmadan kısmi uzamsal farkındalık gerektiren uygulamalar için, Yönlendirilmiş Sınırlayıcı Kutu (OBB) algılama olarak hizmet eder Bir orta yol olarak, havadan görünümlerde gemiler veya araçlar gibi nesnelere daha iyi uyması için 2B'de döndürülmüş sınırlayıcı kutuları tahmin eder.

Gerçek Dünya Uygulamaları

3D nesne algılama, fiziksel dünya ile etkileşime giren endüstriler için bir algı motorudur:

  • Otonom Araçlar: Waymo tarafından geliştirilenler gibi sürücüsüz araçlar, 3 boyutlu algılama özelliğini kullanır. Diğer araçların ve yayaların hızını, yönünü ve mesafesini track etmek için LiDAR ve kamera verileri yörüngeler.
  • Robotik: Endüstriyel kollar ve mobil robotlar üretim, kavramak için 3D algıya dayanır belirli pozlara sahip nesneler veya dinamik depolarda çarpışma olmadan gezinme.
  • Artırılmış Gerçeklik (AR): Cihazlar, sanal nesneleri gerçek dünya yüzeylerine tutturmak için 3D algılamayı kullanır, Ortamın geometrisiyle doğru şekilde hizalanmalarını sağlamak.

YOLO11 ile Entegrasyon

Bir yandan YOLO11 öncelikle bir 2D dedektörüdür, bu birçok 3B algılama işlem hattında kritik bir rol oynar. "Frustum tabanlı algılama" olarak bilinen yaygın bir yaklaşım bir görüntüdeki ilgilenilen bölgeyi tanımlamak için yüksek hızlı bir 2D model kullanır. Bu 2D kutu daha sonra 3D uzaya ekstrüde edilir nokta bulutunu kırparak 3B model için arama alanını önemli ölçüde azaltır.

Aşağıdaki örnekte Ultralytics YOLO11 kullanılarak ilk 2D algılama adımının nasıl gerçekleştirileceği gösterilmektedir 3D kaldırma modülü için bir teklif olarak hizmet eder:

from ultralytics import YOLO

# Load the YOLO11 model (optimized for 2D detection)
model = YOLO("yolo11n.pt")

# Run inference on an image (e.g., from a vehicle camera)
results = model("path/to/driving_scene.jpg")

# In a 3D pipeline, these 2D boxes (x, y, w, h) are used to
# isolate the corresponding region in the LiDAR point cloud.
for result in results:
    for box in result.boxes:
        print(f"Class: {int(box.cls)}, 2D Box: {box.xywh.numpy()}")

İlgili Kavramlar

  • Derinlik Tahmini: Bir görüntüdeki her pikselin kameraya olan uzaklığını tahmin eder. Derinlik verisi sağlarken şunları yapmaz 3D algılamada olduğu gibi tek tek nesneleri veya boyutlarını doğal olarak tanımlar.
  • Sensör Füzyonu: Birden fazla sensörden (örn. LiDAR, radar ve kameralar) gelen verileri birleştirerek doğruluk ve hassasiyeti artırma süreci 3D algılamanın güvenilirliği.
  • NuScenes Veri Kümesi: LiDAR ve otonom sürüş için 3D sınırlayıcı kutu ek açıklamaları sağlayan büyük ölçekli bir kamu veri kümesi 3D modelleri karşılaştırmak için yaygın olarak kullanılan kamera verileri.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın