Çapa tabanlı dedektörlerin hassas konumlandırma, ölçeğe uyarlanabilirlik ve gerçek dünya uygulamaları ile nesne algılamada nasıl devrim yarattığını keşfedin.
Çapa tabanlı dedektörler, nesne algılama görevinin üstesinden gelmek için bilgisayarla görmede (CV) önemli ve temel bir yaklaşımı temsil eder. Bu modeller, genellikle "çapa" veya "öncül" olarak adlandırılan, belirli boyutlara ve en boy oranlarına sahip önceden tanımlanmış bir referans kutuları kümesi kullanarak çalışır. Çapalar görüntü boyunca dağıtılır ve ilk tahminler veya şablonlar olarak işlev görerek modelin, özellikle farklı ölçek ve şekillerdeki öğelerle uğraşırken nesnelerin konumunu ve sınıfını daha etkili bir şekilde tahmin etmesini sağlar. 'nin belirli sürümleri gibi birçok etkili erken nesne algılama modeli Ultralytics YOLO aile, bu tekniği kullanmıştır.
Çapa tabanlı dedektörlerin arkasındaki temel kavram, bu önceden tanımlanmış çapa kutularının yoğun bir ızgarasını giriş görüntüsü boyunca birden çok konumda ve ölçekte kaplamaktır. Her bir bağlantı kutusu, belirli bir boyut ve şekle sahip potansiyel bir nesneye karşılık gelir. Model eğitim süreci sırasında, dedektör her çapa için iki temel şey öğrenir: birincisi, çapa kutusunun ilgili bir nesne mi yoksa arka plan mı içerdiğini sınıflandırır; ikincisi, gerçek nesnenin sınırlayıcı kutusuyla tam olarak eşleşmesi için çapanın konumunu ve boyutlarını (regresyon adı verilen bir süreç) iyileştirir.
İşlek bir caddenin görüntüsündeki çeşitli araçları tespit etmeyi düşünün. Her piksel grubunu analiz etmek yerine, çapa tabanlı bir model önceden tanımlanmış kutu şablonlarını kullanır: yayalar için daha küçük olanlar, arabalar için orta kareler ve otobüsler için daha büyük dikdörtgenler. Bu şablonlar (çapalar) görüntü boyunca yerleştirilir. Bir çapa bir araba ile önemli ölçüde örtüşüyorsa, model onu 'araba' olarak sınıflandırmayı öğrenir ve çapanın koordinatlarını ve boyutunu arabaya mükemmel şekilde uyacak şekilde ayarlar. Sadece yolu veya binaları kaplayan çapalar 'arka plan' olarak sınıflandırılır. Önceden tanımlanmış şekiller tarafından yönlendirilen bu sistematik yaklaşım, nesne tespitinin karmaşıklığını yönetmeye yardımcı olur. Performans genellikle Birlik Üzerinde Kesişim (IoU) ve Ortalama Hassasiyet (mAP) gibi metrikler kullanılarak değerlendirilir.
Genellikle omurga olarak güçlü Evrişimsel Sinir Ağlarından (CNN'ler) yararlanan çapa tabanlı dedektörler, belirgin avantajlar sunar:
Çapa tabanlı dedektörler çok sayıda gerçek dünya senaryosunda başarıyla kullanılmıştır:
Son yıllarda, çapasız dedektörler popüler bir alternatif olarak ortaya çıkmıştır. Çapa tabanlı modellerin aksine (örn, Ultralytics YOLOv5), çapasız yaklaşımlar, genellikle kilit noktaları (nesne merkezleri veya köşeleri gibi) belirleyerek veya bir noktadan nesnenin sınırlarına olan mesafeleri tahmin ederek, önceden tanımlanmış çapa şekillerine olan ihtiyacı ortadan kaldırarak nesne konumlarını ve boyutlarını doğrudan tahmin eder.
Temel farklılıklar şunlardır:
YOLOv4 gibi çapa tabanlı dedektörler oldukça başarılı olsa da, aşağıdakiler de dahil olmak üzere birçok modern mimari Ultralytics YOLO11basitlik ve verimlilik avantajlarından yararlanmak için çapasız tasarımları benimsemiştir. YOLO11'de çapasız algılamanın avantajlarını keşfedebilir ve farklı YOLO modelleri arasındaki karşılaştırmaları görebilirsiniz.
İster çapa tabanlı ister çapasız olsun, nesne algılama modellerinin geliştirilmesi ve konuşlandırılması aşağıdaki gibi çerçevelerin kullanılmasını içerir PyTorch veya TensorFlow ve OpenCV gibi kütüphaneler. Ultralytics HUB gibi platformlar, çeşitli model mimarilerini destekleyerek özel modelleri eğitmek, veri kümelerini yönetmek ve çözümleri dağıtmak için kolaylaştırılmış iş akışları sunar. Daha fazla bilgi edinmek için Papers With Code gibi kaynaklar son teknoloji modelleri listeler ve DeepLearning.AI gibi platformların kursları temel kavramları kapsar.