Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

3B Nesne Algılama

AI'da uzamsal farkındalığı geliştirmek için 3D nesne algılamayı keşfedin. Ultralytics gerçek dünyadaki derinlik, yönelim ve 3D sınırlayıcı kutu tahminini nasıl desteklediğini öğrenin.

3D nesne algılama, makinelerin üç boyutlu bir alanda nesneleri tanımlamasını, konumunu belirlemesini ve boyutunu tespit etmesini sağlayan sofistike bir bilgisayar görme görevidir. Görüntüdeki bir öğenin etrafına düz bir sınırlayıcı kutu çizen geleneksel 2D nesne algılamadan farklı olarak, 3D nesne algılama nesneyi kapsayan bir küboid (3D kutu) tahmin eder. Bu, kritik derinlik bilgisi, yön (başlık) ve hassas uzamsal boyutlar sağlar ve sistemlerin bir nesnenin ne olduğunu değil, gerçek dünyada sensöre göre tam olarak nerede olduğunu anlamasını sağlar. Bu yetenek, çevresiyle fiziksel olarak etkileşime girmesi gereken teknolojiler için temeldir.

3D Nesne Algılama Nasıl Çalışır?

Derinlik ve hacmi algılamak için, 3D algılama modelleri genellikle standart kameraların sağladığından daha zengin veri girdilerine dayanır. Bazı gelişmiş yöntemler monoküler (tek lensli) görüntülerden 3D yapıları çıkarabilirken, en sağlam sistemler LiDAR sensörleri, radar veya stereo kameralardan gelen verileri kullanır. Bu sensörler, nesnelerin dış yüzeyini temsil eden büyük veri noktaları koleksiyonları olan nokta bulutlarıoluşturur.

Bu süreç birkaç önemli adımı içerir:

  • Veri Toplama: Sensörler sahnenin geometrisini yakalar. Örneğin LiDAR, lazer darbeleri kullanarak mesafeleri ölçer ve hassas bir 3D harita oluşturur.
  • Özellik Çıkarma: Genellikle Convolutional Neural Networks (CNNs) veya Transformers'a dayanan derin öğrenme modelleri, nokta bulutu veya birleştirilmiş görüntü verilerini işleyerek kalıpları tanımlar.
  • Sınırlayıcı Kutu Tahmini: Model, merkez koordinatları (x, y, z), boyutları (uzunluk, genişlik, yükseklik) ve dönme açısı (yaw) ile tanımlanan bir 3D sınırlayıcı kutu çıktısı verir.
  • Sınıflandırma: Görüntü sınıflandırmasına benzer şekilde, sistem algılanan nesneye bir etiket (örneğin, "yaya", "araç") atar.

2D ve 3D Algılama Arasındaki Fark

Bu iki ilgili kavramı birbirinden ayırmak önemlidir.

  • 2D Nesne Algılama: Düz görüntüler (pikseller) üzerinde çalışır. Bir nesnenin çerçevenin "sol üst" veya "sağ alt" köşesinde olduğunu bildirir, ancak referans işaretleri olmadan mesafeyi veya gerçek dünya boyutunu etkili bir şekilde değerlendiremez. Üretim hatalarını tanımlama veya derinliğin çok önemli olmadığı video beslemelerini analiz etme gibi görevler için idealdir. 3D Nesne Alg ılama: 3D görüntüler üzerinde çalışır.
  • 3D Nesne Algılama: Hacimsel uzayda (voksel veya noktalar) çalışır. Kameradan uzaklığı (derinlik), nesnenin fiziksel boyutunu ve yönünü sağlar. Bu, dinamik ortamlarda çarpışmaları önlemek için gereklidir .

Gerçek Dünya Uygulamaları

2D'den 3D algısına geçiş, güvenlik ve uzamsal farkındalığın önemli olduğu sektörlerde güçlü kullanım örneklerini ortaya çıkarır.

  • Otonom Sürüş: Otonom araçlar, güvenli bir şekilde yol alabilmek için büyük ölçüde 3D algılama teknolojisine dayanır. LiDAR ve kameralardan gelen verileri işleyerek, araç detect araçları, yayaları ve engelleri detect ve bunların tam mesafesini ve hızını detect . Bu, algılama sisteminin yörüngeleri tahmin etmesini ve gerçek zamanlı çıkarım senaryolarında frenleme veya direksiyon kararları almasını sağlar. Waymo gibi şirketler bu ağır sensör paketlerini kullanarak kentsel ortamları anında haritalandırmaktadır .
  • Robotik ve Kutu Toplama: Lojistik ve depolamada, robotların kutulardan çeşitli şekil ve boyutlardaki nesneleri toplaması gerekir. 3D algılama, robot kolunun bir paketin yönünü anlamasını, en iyi tutma noktasını belirlemesini ve nesneyi taşımak için çarpışmasız bir yol planlamasını sağlar. Bu, karmaşık manuel görevleri otomatikleştirerek lojistikte yapay zekanın verimliliğini artırır .

Ultralytics ile Nesne Algılama Uygulaması

Tam 3D algılama genellikle özel nokta bulutu mimarileri gerektirirken, YOLO26 gibi modern 2D algılayıcılar, sözde 3D iş akışlarında veya sınırlayıcı kutu ölçeklendirme yoluyla derinlik tahmininde giderek daha fazla kullanılmaktadır. Kendi veri kümeleri üzerinde modeller eğitmek isteyen geliştiriciler için Ultralytics , açıklama ve eğitim için kolaylaştırılmış bir ortam sunar.

Ultralytics Python kullanarak standart algılamayı çalıştırmanın basit bir örneği aşağıda verilmiştir. Bu, genellikle daha büyük bir algılama sürecinin ilk adımıdır:

import cv2
from ultralytics import YOLO

# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")

# Perform inference on a local image
results = model("path/to/image.jpg")

# Visualize the results
for result in results:
    # Plot predictions on the image (returns a numpy array)
    im_array = result.plot()

    # Display using OpenCV
    cv2.imshow("Detections", im_array)
    cv2.waitKey(0)  # Press any key to close
    cv2.destroyAllWindows()

Zorluklar ve Gelecekteki Eğilimler

Kullanışlılığına rağmen, 3D nesne algılama, hesaplama maliyeti ve sensör masrafları konusunda zorluklarla karşı karşıyadır. Bir nokta bulutundaki milyonlarca noktayı işlemek, önemli miktarda GPU gerektirir ve bu da uç cihazlarda kullanımı zorlaştırır. Ancak, model niceleme ve verimli sinir mimarilerindeki yenilikler bu yükü azaltmaktadır.

Ayrıca, sensör füzyonu gibi teknikler, kameraların zengin renk bilgilerini LiDAR'ın hassas derinlik verileriyle birleştirerek doğruluğu artırmaktadır. Bu teknolojiler olgunlaştıkça, artırılmış gerçeklik gözlüklerindenakıllı ev aletlerine kadar daha erişilebilir cihazlara entegre edilmiş 3D algılamayı görmeyi bekleyebiliriz.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın