Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

3B Nesne Algılama

3B nesne algılamayı keşfedin: LiDAR, nokta bulutları ve derin öğrenme, otonom araçlar, robotik ve AR için doğru 3B sınırlayıcı kutuları nasıl oluşturur?

3D nesne algılama, üç boyutlu bir ortamda nesneleri tanımlayan, sınıflandıran ve konumlandıran gelişmiş bir bilgisayar görme (CV) tekniğidir. Görüntü düzleminde bir nesnenin etrafına düz bir dikdörtgen sınır kutusu çizen geleneksel 2D nesne algılamadan farklı olarak, 3D nesne algılama uzamsal bir küboidi tahmin eder. Bu hacim yedi temel parametre ile tanımlanır: merkez Bu hacim yedi temel parametre ile tanımlanır: merkez koordinatları (x, y, z), fiziksel boyutlar (uzunluk, genişlik, yükseklik) ve yönelim (yön açısı). Bu zengin uzamsal veriler, yapay zeka (AI) sistemlerinin nesnelerin sensöre göre gerçek boyutunu, mesafesini ve pozisyonunu algılamasına olanak tanıyarak dijital algılama ile fiziksel etkileşim arasındaki boşluğu doldurur.

3D Nesne Algılama Nasıl Çalışır?

Dünyayı hacimsel olarak anlamak için, 3D algılama modelleri geometrik bilgiler içeren girdi verilerine ihtiyaç duyar. Standart görüntü tanıma piksel yoğunluğuna dayanırken, 3D yöntemler genellikle görsel verileri derinlik ölçümleriyle birleştirmek için sensör füzyonunu kullanır.

Birincil veri kaynakları şunları içerir:

  • LiDAR (Işık Algılama ve Mesafe Ölçümü): Bu sensörler, lazer darbeleri yayarak hassas mesafeleri ölçer ve nokta bulutu olarak bilinen seyrek, geometrik bir sahne temsili oluşturur.
  • Stereo Kameralar: Binoküler görüşü taklit etmek için iki lens kullanan bu sistemler, paralellik haritaları aracılığıyla derinliği hesaplayarak görsel ofsetlerden 3D yapıların yeniden oluşturulmasını sağlar.
  • Monoküler Derinlik Tahmini: Gelişmiş derin öğrenme (DL) algoritmaları, tek bir 2D görüntüden derinlik tahmininde bulunabilir. Bu teknik genellikle "sözde LiDAR" olarak adlandırılır, ancak genellikle aktif sensörlerden daha düşük hassasiyet sunar.

Gerçek Dünya Uygulamaları

Derinlik ve hacim algılama yeteneği, 3D nesne algılamayı fiziksel dünya ile etkileşimde bulunan endüstriler için algılama motoru haline getirir. .

  • Otonom Araçlar: Otonom araçlar, çevredeki trafiğin track , hızını ve yönünü track için 3D algılama teknolojisine dayanır. Waymo Açık Veri Seti veya nuScenes veri setinden gelen verileri işleyerek, bu araçlar olası çarpışmaları tahmin edebilir ve dinamik ortamlarda güvenli rotalar planlayabilir.
  • Robotik: Endüstriyel robotlar, "kutu toplama" işlemini gerçekleştirmek için 3D algılama kullanır. Bir robot kolu, bir parçayı yığından doğru şekilde kavramak için parçanın tam 3D pozisyonunu anlamalıdır. Bu yetenek, veri işleme için Open3D gibi araçlar kullanılarak modern iş akışlarına entegre edilmiştir .
  • Artırılmış Gerçeklik (AR): Sanal karakterleri veya bilgileri gerçek dünyadaki yüzeylere sabitlemek için, Google gibi çerçeveler, ortamın geometrisini haritalamak için 3D algılama kullanır ve dijital varlıkların fiziksel zemin veya masalarla mükemmel bir şekilde hizalanmasını sağlar.

3D ve 2D Nesne Algılama

Bu iki teknoloji arasındaki fark, çıktılarının boyutları ve kullanım amaçlarıdır .

  • 2D Nesne Algılama: Ekran alanında (piksel) çalışır. Video karesindeki bir kişiyi tanımlama gibi görevler için gerçek zamanlı çıkarım sağlar, ancak kişinin metre cinsinden ne kadar uzakta olduğunu söyleyemez.
  • 3D Nesne Algılama: Dünya uzayında (metre) çalışır. Tıkanıklığı etkili bir şekilde ele alır ve bir robotun bir nesnenin etrafında fiziksel olarak gezinmesi için gerekli koordinat verilerini sağlar.

Basit bir kare kutudan daha fazla yönlendirme verisi gerektiren ancak tam 3D'den daha az hesaplama yükü gerektiren senaryolar için, Yönlendirilmiş Sınırlayıcı Kutu (OBB) algılama, verimli bir orta yol görevi görür. OBB, en yeni Ultralytics YOLO26 tarafından tam olarak desteklenir ve hava görüntülerinde veya karmaşık üretim hatlarında döndürülmüş algılamalara olanak tanır.

Ultralytics YOLO ile Entegrasyon

Tam 3D algılama genellikle VoxelNet veya PointPillars gibi özel mimariler gerektirirken, yüksek hızlı 2D algılayıcılar "frustum tabanlı" 3D boru hatlarında kritik bir rol oynar. Bu iş akışında, YOLO11 (veya daha yeni olan YOLO26) gibi bir model, 2D görüntüdeki nesneyi algılar. Bu 2D kutu daha sonra LiDAR nokta bulutunun ilgili bölümünü izole etmek için 3D uzaya ekstrüde edilir ve 3D model için arama alanını önemli ölçüde azaltır.

Aşağıdaki örnek, OBB modeliyle çıkarımın nasıl gerçekleştirileceğini göstermektedir. ultralytics paket, tam 3D analizinin öncüsü olarak sıklıkla kullanılan dönme farkında algılama sağlar :

from ultralytics import YOLO

# Load a pre-trained YOLO26 model capable of Oriented Bounding Box detection
model = YOLO("yolo26n-obb.pt")

# Perform inference on an image (e.g., aerial view or slanted objects)
results = model("https://docs.ultralytics.com/datasets/obb/dota-v2/")

# Display the rotated bounding box coordinates
for result in results:
    # returns center_x, center_y, width, height, rotation
    print(result.obb.xywhr)

İlgili Kavramlar

  • Derinlik Tahmini: Bir sahnenin derinlik haritasını oluşturan piksel bazlı bir tahmin görevidir. Nesne algılamadan farklı olarak, tek tek nesne örneklerini veya sınıflarını tanımlamaz.
  • Sentetik Veriler: Gerçek dünyadaki etiketli 3D verilerin az olduğu veya toplanmasının pahalı olduğu durumlarda modelleri eğitmek için kullanılan yapay olarak oluşturulmuş 3D sahneler .
  • PyTorch3D: Derin öğrenme ile 3D bilgisayar görme araştırmaları için verimli, yeniden kullanılabilir bileşenler sağlayan bir kütüphane.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın