Çapa kutularının, otonom sürüş ve perakende sektöründeki uygulamalarla birlikte çapa tabanlı nesne algılama, sınıflandırma, regresyon ve NMS için öncelleri nasıl sağladığını öğrenin.
Çapa kutuları, birçok mimaride temel bir kavram olarak hizmet vermektedir. önceden tanımlanmış olarak hareket eden nesne algılama modelleri Nesnelerin yerini ve boyutunu tahmin etmek için referanslar. Bir görüntüyü rastgele nesneler için taramak yerine boyutlarını sıfırdan oluştururken, model belirli yükseklik ve genişliklerle tanımlanan bu sabit şekilleri başlangıç noktası olarak kullanır, veya önceller. Bu yaklaşım, mutlak koordinatların belirlenmesi gibi zorlu bir görevi dönüştürerek öğrenme sürecini basitleştirir. Tahmin, ağın bunları ayarlamayı veya "dengelemeyi" öğrendiği daha yönetilebilir bir regresyon problemine dönüşür zemin gerçeği nesnelerine uyması için şablonlar. Bu gibi popüler mimarilerin başarısında çok önemli bir rol oynamıştır. Daha hızlı R-CNN ailesi ve erken tek aşamalı dedektörler.
Çapa kutuları mekanizması, giriş görüntüsünün yoğun bir merkez ızgarasıyla döşenmesini içerir. Her bir ızgara hücresinde, farklı en boy oranlarına sahip çoklu bağlantı kutuları ve Uzun yayalar veya geniş araçlar gibi farklı şekillerdeki nesneleri barındırmak için ölçekler oluşturulur. sırasında model eğitim aşamasında, sistem bu çapaları adı verilen bir metrik kullanarak gerçek nesneler Birlik Üzerinde Kavşak (IoU). Ankrajlar Hedef nesne ile önemli ölçüde örtüşen örnekler pozitif örnekler olarak etiketlenir.
Dedektörün backbone görüntüden özellikler çıkarır, algılama kafasının iki işlemi gerçekleştirmek için kullandığı Her bir pozitif çapa için paralel görevler:
Aynı nesne için çakışan tahminleri ele almak için, aşağıdaki gibi bilinen bir son işlem adımı Maksimum Olmayan Bastırma (NMS) filtreleri gereksiz kutuları çıkararak yalnızca en yüksek güvene sahip olanı korur. Gibi çerçeveler PyTorch ve TensorFlow için gerekli hesaplama araçlarını sağlamak bu karmaşık işlemleri verimli bir şekilde uygulayabilir.
Çapa kutularını anlamak, bunları kendi içlerindeki benzer terimlerden ayırt etmeyi gerektirir bilgisayar görüşü (CV).
Çapa kutularının yapılandırılmış doğası, onları özellikle nesne şekillerinin olduğu ortamlarda etkili kılar tutarlı ve öngörülebilir.
YOLO11 gibi modern modeller çapasız olsa da, YOLOv5 gibi önceki yinelemelerde çapa kutuları kullanılmaktadır. Bu
ultralytics paketi bu karmaşıklığı soyutlayarak kullanıcıların manuel olarak çıkarım yapmadan
çapaları yapılandırma. Aşağıdaki örnekte, nesneleri detect etmek için önceden eğitilmiş bir modelin yüklenmesi gösterilmektedir:
from ultralytics import YOLO
# Load a pretrained YOLOv5 model (anchor-based architecture)
model = YOLO("yolov5su.pt")
# Run inference on a static image from the web
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detected bounding boxes
results[0].show()
Bu sistemlerin matematiksel temelleriyle ilgilenenler için aşağıdaki gibi eğitim platformları Coursera ve DeepLearning.AI derinlemesine kurslar sunuyor konvolüsyonel sinir ağları ve nesne algılama üzerine.
.webp)

