3D Object Detection
Yapay zekada mekansal farkındalıkta ustalaşmak için 3B nesne algılamayı keşfet. Ultralytics YOLO26'nın gerçek dünya derinliğini, yönelimini ve 3B sınırlayıcı kutu tahminini nasıl desteklediğini öğren.
3D object detection is a sophisticated computer vision task that enables machines to identify, locate, and determine the size of objects within a three-dimensional space. Unlike traditional 2D object detection, which draws a flat bounding box around an item in an image, 3D object detection estimates a cuboid (a 3D box) that encapsulates the object. This provides critical depth information, orientation (heading), and precise spatial dimensions, allowing systems to understand not just what an object is, but exactly where it is relative to the sensor in the real world. This capability is fundamental for technologies that need to interact physically with their environment.
Link to this section3D Nesne Algılama Nasıl Çalışır#
Derinliği ve hacmi algılamak için 3D algılama modelleri, genellikle standart kameraların sağladığından daha zengin veri girişlerine güvenir. Bazı gelişmiş yöntemler monoküler (tek lensli) görüntülerden 3D yapıları çıkarabilse de, çoğu sağlam sistem LiDAR sensörleri, radar veya stereo kameralardan gelen verileri kullanır. Bu sensörler, nesnelerin dış yüzeyini temsil eden devasa veri noktası koleksiyonları olan point clouds oluşturur.
Süreç birkaç temel adımdan oluşur:
- Veri Edinme: Sensörler sahnenin geometrisini yakalar. Örneğin LiDAR, mesafeleri ölçmek için lazer darbeleri kullanır ve hassas bir 3D harita oluşturur.
- Özellik Çıkarımı: Genellikle Convolutional Neural Networks (CNNs) veya Transformer tabanlı derin öğrenme modelleri, kalıpları belirlemek için nokta bulutunu veya birleştirilmiş görüntü verilerini işler.
- Bounding Box Tahmini: Model, merkez koordinatları (x, y, z), boyutları (uzunluk, genişlik, yükseklik) ve dönüş açısı (yaw) ile tanımlanan bir 3D bounding box çıktısı verir.
- Sınıflandırma: Görüntü sınıflandırmaya benzer şekilde, sistem algılanan nesneye bir etiket (örneğin, "yaya", "araç") atar.
Link to this section2D ve 3D Algılama Arasındaki Fark#
Bu birbiriyle ilişkili iki kavram arasında ayrım yapmak önemlidir.
- 2D Nesne Algılama: Düz görüntüler (piksel) üzerinde çalışır. Bir nesnenin karenin "sol üst" veya "sağ alt" kısmında olduğunu söyler ancak referans işaretleri olmadan mesafeyi veya gerçek dünya boyutunu etkili bir şekilde yargılayamaz. Üretim kusurlarını tanımlama veya derinliğin daha az kritik olduğu video akışlarını analiz etme gibi görevler için idealdir.
- 3D Nesne Algılama: Hacimsel uzayda (voksel veya noktalar) çalışır. Kameradan olan mesafeyi (derinlik), nesnenin fiziksel boyutunu ve yönelimini sağlar. Bu, dinamik ortamlarda çarpışmaları önlemek için gereklidir.
Link to this sectionGerçek Dünya Uygulamaları#
2D'den 3D algılamaya geçiş, güvenlik ve uzamsal farkındalığın çok önemli olduğu endüstrilerde güçlü kullanım alanlarının önünü açar.
- Otonom Sürüş: Kendi kendine giden araçlar, güvenli bir şekilde gezinmek için büyük ölçüde 3D algılamaya güvenir. LiDAR ve kameralardan gelen verileri işleyen araç, diğer araçları, yayaları ve engelleri tespit ederek tam mesafelerini ve hızlarını hesaplayabilir. Bu, algılama sisteminin yörüngeleri tahmin etmesini ve real-time inference senaryolarında frenleme veya direksiyon kararları vermesini sağlar. Waymo gibi şirketler, kentsel ortamları anında haritalamak için bu ağır sensör paketlerini kullanır.
- Robotik ve Kutu Toplama: Lojistik ve depolamada robotların, kutulardan çeşitli şekil ve boyutlardaki nesneleri toplaması gerekir. 3D algılama, bir robot kolunun bir paketin yönelimini anlamasını, en iyi tutma noktasını belirlemesini ve öğeyi taşımak için çarpışmasız bir yol planlamasını sağlar. Bu, karmaşık manuel görevleri otomatikleştirerek lojistikte yapay zeka verimliliğini artırır.
Link to this sectionUltralytics ile Nesne Algılamayı Uygulama#
Tam 3D algılama genellikle özel nokta bulutu mimarileri gerektirse de, YOLO26 gibi modern 2D dedektörler, sözde-3D iş akışlarında veya bounding box ölçeklendirmesi yoluyla derinlik tahmini yapmak için giderek daha fazla kullanılmaktadır. Kendi veri setleri üzerinde model eğitmek isteyen geliştiriciler için Ultralytics Platform, etiketleme ve eğitim için aerodinamik bir ortam sunar.
İşte, daha büyük bir algılama hattındaki ilk adım olarak sıklıkla kullanılan Ultralytics Python API'sini kullanarak standart algılamanın nasıl çalıştırılacağına dair basit bir örnek:
import cv2
from ultralytics import YOLO
# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Perform inference on a local image
results = model("path/to/image.jpg")
# Visualize the results
for result in results:
# Plot predictions on the image (returns a numpy array)
im_array = result.plot()
# Display using OpenCV
cv2.imshow("Detections", im_array)
cv2.waitKey(0) # Press any key to close
cv2.destroyAllWindows()Link to this sectionZorluklar ve Gelecek Eğilimleri#
Faydasına rağmen, 3D nesne algılama hesaplama maliyeti ve sensör masrafı ile ilgili zorluklarla karşı karşıyadır. Bir nokta bulutundaki milyonlarca noktayı işlemek önemli miktarda GPU gücü gerektirir ve bu da uç cihazlarda dağıtımı zorlaştırır. Ancak, model quantization ve verimli sinir ağı mimarilerindeki yenilikler bu yükü azaltmaktadır.
Ayrıca, sensör füzyonu gibi teknikler, kameraların zengin renk bilgisi ile LiDAR'ın hassas derinlik verilerini birleştirerek doğruluğu artırmaktadır. Bu teknolojiler olgunlaştıkça, artırılmış gerçeklik gözlüklerinden akıllı ev aletlerine kadar daha erişilebilir cihazlara 3D algılamanın entegre edildiğini görmeyi bekleyebiliriz.






