AI'da uzamsal farkındalığı geliştirmek için 3D nesne algılamayı keşfedin. Ultralytics gerçek dünyadaki derinlik, yönelim ve 3D sınırlayıcı kutu tahminini nasıl desteklediğini öğrenin.
3D nesne algılama, makinelerin üç boyutlu bir alanda nesneleri tanımlamasını, konumunu belirlemesini ve boyutunu tespit etmesini sağlayan sofistike bir bilgisayar görme görevidir. Görüntüdeki bir öğenin etrafına düz bir sınırlayıcı kutu çizen geleneksel 2D nesne algılamadan farklı olarak, 3D nesne algılama nesneyi kapsayan bir küboid (3D kutu) tahmin eder. Bu, kritik derinlik bilgisi, yön (başlık) ve hassas uzamsal boyutlar sağlar ve sistemlerin bir nesnenin ne olduğunu değil, gerçek dünyada sensöre göre tam olarak nerede olduğunu anlamasını sağlar. Bu yetenek, çevresiyle fiziksel olarak etkileşime girmesi gereken teknolojiler için temeldir.
Derinlik ve hacmi algılamak için, 3D algılama modelleri genellikle standart kameraların sağladığından daha zengin veri girdilerine dayanır. Bazı gelişmiş yöntemler monoküler (tek lensli) görüntülerden 3D yapıları çıkarabilirken, en sağlam sistemler LiDAR sensörleri, radar veya stereo kameralardan gelen verileri kullanır. Bu sensörler, nesnelerin dış yüzeyini temsil eden büyük veri noktaları koleksiyonları olan nokta bulutlarıoluşturur.
Bu süreç birkaç önemli adımı içerir:
Bu iki ilgili kavramı birbirinden ayırmak önemlidir.
2D'den 3D algısına geçiş, güvenlik ve uzamsal farkındalığın önemli olduğu sektörlerde güçlü kullanım örneklerini ortaya çıkarır.
Tam 3D algılama genellikle özel nokta bulutu mimarileri gerektirirken, YOLO26 gibi modern 2D algılayıcılar, sözde 3D iş akışlarında veya sınırlayıcı kutu ölçeklendirme yoluyla derinlik tahmininde giderek daha fazla kullanılmaktadır. Kendi veri kümeleri üzerinde modeller eğitmek isteyen geliştiriciler için Ultralytics , açıklama ve eğitim için kolaylaştırılmış bir ortam sunar.
Ultralytics Python kullanarak standart algılamayı çalıştırmanın basit bir örneği aşağıda verilmiştir. Bu, genellikle daha büyük bir algılama sürecinin ilk adımıdır:
import cv2
from ultralytics import YOLO
# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Perform inference on a local image
results = model("path/to/image.jpg")
# Visualize the results
for result in results:
# Plot predictions on the image (returns a numpy array)
im_array = result.plot()
# Display using OpenCV
cv2.imshow("Detections", im_array)
cv2.waitKey(0) # Press any key to close
cv2.destroyAllWindows()
Kullanışlılığına rağmen, 3D nesne algılama, hesaplama maliyeti ve sensör masrafları konusunda zorluklarla karşı karşıyadır. Bir nokta bulutundaki milyonlarca noktayı işlemek, önemli miktarda GPU gerektirir ve bu da uç cihazlarda kullanımı zorlaştırır. Ancak, model niceleme ve verimli sinir mimarilerindeki yenilikler bu yükü azaltmaktadır.
Ayrıca, sensör füzyonu gibi teknikler, kameraların zengin renk bilgilerini LiDAR'ın hassas derinlik verileriyle birleştirerek doğruluğu artırmaktadır. Bu teknolojiler olgunlaştıkça, artırılmış gerçeklik gözlüklerindenakıllı ev aletlerine kadar daha erişilebilir cihazlara entegre edilmiş 3D algılamayı görmeyi bekleyebiliriz.