Robotik ve gözetim gibi gerçek zamanlı uygulamalar için ideal olan YOLO gibi tek aşamalı nesne dedektörlerinin hızını ve verimliliğini keşfedin.
Tek aşamalı nesne dedektörleri, bilgisayarla görmede hız ve verimlilik için tasarlanmış bir derin öğrenme modelleri sınıfıdır. Nesne lokalizasyonu ve sınıflandırmasını sinir ağının tek ve birleşik bir geçişinde gerçekleştirirler. Bu, görevi iki ayrı adıma bölen daha karmaşık muadilleri olan iki aşamalı nesne dedektörleriyle tezat oluşturur. Nesne tespitini basit bir regresyon problemi olarak ele alan tek aşamalı modeller, sınırlayıcı kutuları ve sınıf olasılıklarını doğrudan görüntü özelliklerinden tahmin ederek onları son derece hızlı ve gerçek zamanlı çıkarım gerektiren uygulamalar için uygun hale getirir.
Tek aşamalı bir dedektör, tüm görüntüyü tek bir evrişimli sinir ağı (CNN) aracılığıyla bir kerede işler. Ağın mimarisi aynı anda birkaç görevi yerine getirmek üzere tasarlanmıştır. İlk olarak, ağın omurgası özellik çıkarma işlemini gerçekleştirerek giriş görüntüsünün çeşitli ölçeklerde zengin temsillerini oluşturur. Bu özellikler daha sonra özel bir algılama kafasına beslenir.
Bu kafa, bir dizi sınırlayıcı kutuyu, her kutu için bir nesnenin varlığını gösteren bir güven puanını ve her nesnenin belirli bir sınıfa ait olma olasılığını tahmin etmekten sorumludur. Tüm bu süreç, yüksek hızlarının anahtarı olan tek bir ileri geçişte gerçekleşir. Maksimum olmayan bastırma (NMS) gibi teknikler daha sonra nihai çıktıyı üretmek için gereksiz ve örtüşen tespitleri filtrelemek için kullanılır. Modeller, lokalizasyon kaybı (sınırlayıcı kutunun ne kadar doğru olduğu) ve sınıflandırma kaybını (sınıf tahmininin ne kadar doğru olduğu) birleştiren özel bir kayıp fonksiyonu kullanılarak eğitilir.
Temel ayrım metodolojide yatmaktadır. Tek aşamalı dedektörler hız ve basitlik için üretilirken, iki aşamalı dedektörler doğruluğa öncelik verir, ancak bu ayrım yeni modellerle daha az belirgin hale gelmektedir.
Her birinin benzersiz katkıları olan birkaç etkili tek aşamalı mimari geliştirilmiştir:
Tek aşamalı dedektörlerin hızı ve verimliliği, onları çok sayıda yapay zeka odaklı uygulamada vazgeçilmez hale getirmiştir:
Tek aşamalı dedektörlerin birincil avantajı, NVIDIA Jetson veya Raspberry Pi gibi düşük güçlü uç yapay zeka cihazları da dahil olmak üzere çeşitli donanımlarda gerçek zamanlı nesne algılamaya olanak tanıyan inanılmaz hızlarıdır. Daha basit, uçtan uca mimarileri, PyTorch veya TensorFlow gibi çerçeveler kullanılarak eğitilmelerini ve dağıtılmalarını da kolaylaştırır.
Tarihsel olarak, ana sınırlama, özellikle çok küçük veya yoğun şekilde tıkanmış nesnelerle uğraşırken, iki aşamalı dedektörlere kıyasla daha düşük doğruluk olmuştur. Bununla birlikte, YOLO11 gibi modellerde görüldüğü gibi model mimarisi ve eğitim tekniklerindeki son gelişmeler, bu performans açığını önemli ölçüde kapatmış ve çok çeşitli bilgisayarla görme görevleri için güçlü bir hız ve yüksek doğruluk kombinasyonu sunmuştur. Ultralytics HUB gibi platformlar, belirli ihtiyaçlar için özel modellerin eğitilmesi sürecini daha da basitleştirmektedir.