Çapa kutularının, otonom sürüş ve perakende sektöründeki uygulamalarla birlikte çapa tabanlı nesne algılamayı, sınıflandırma, regresyon ve NMS için öncelleri nasıl sağladığını öğrenin.
Çapa kutuları, birçok çapa tabanlı nesne algılama modelinde temel bir bileşendir ve belirli yükseklik ve genişliklere sahip önceden tanımlanmış bir referans kutuları kümesi olarak hizmet eder. Bu kutular, bir görüntüdeki nesnelerin potansiyel konumu ve ölçeği hakkında öncüller veya eğitimli tahminler olarak işlev görür. Nesneleri körü körüne aramak yerine, modeller bu çapaları başlangıç noktaları olarak kullanır, konumlarını ve boyutlarını gerçek nesnelerle eşleşecek şekilde hassaslaştırmak için ofsetleri tahmin eder. Bu yaklaşım, nesne lokalizasyonunun karmaşık görevini, modelin sıfırdan kutular oluşturmak yerine bu şablonları ayarlamayı öğrendiği daha yönetilebilir bir regresyon problemine dönüştürür.
Temel mekanizma, bir görüntünün çeşitli konumlarda yoğun bir bağlantı kutuları ızgarasıyla döşenmesini içerir. Her konumda, farklı şekil ve boyutlardaki nesnelerin etkili bir şekilde tespit edilebilmesini sağlamak için farklı ölçek ve en boy oranlarına sahip birden fazla çapa kullanılır. Model eğitim süreci sırasında, dedektörün omurgası ilk olarak giriş görüntüsünden bir özellik haritası çıkarır. Algılama kafası daha sonra bu özellikleri kullanarak her bir bağlantı kutusu için iki görev gerçekleştirir:
Model, eğitim sırasında hangi bağlantı kutularının zemin gerçek nesneleriyle en iyi eşleştiğini belirlemek için Birlik Üzerinden Kesişim (IoU) gibi metrikleri kullanır. Tahminden sonra, aynı nesne için gereksiz ve örtüşen kutuları ortadan kaldırmak için Maksimum Olmayan Bastırma (NMS) adı verilen bir son işlem adımı uygulanır.
Çapa kutularını bilgisayarla görmedeki ilgili terimlerden ayırmak önemlidir:
Çapa kutularının yapılandırılmış yaklaşımı, nesnelerin öngörülebilir şekil ve boyutlara sahip olduğu senaryolarda onları etkili kılar.
Bu modeller genellikle PyTorch ve TensorFlow gibi güçlü derin öğrenme çerçeveleri kullanılarak geliştirilir. Öğrenmeye devam etmek için DeepLearning.AI gibi platformlar, bilgisayarla görmenin temelleri hakkında kapsamlı kurslar sunmaktadır.