Nesne Algılama Mimarileri
Görüntü anlamanın yapay zeka omurgası olan nesne algılama mimarilerinin gücünü keşfedin. Türleri, araçları ve gerçek dünya uygulamalarını bugün öğrenin!
Nesne algılama mimarileri, derin öğrenme modelleri için temel planlardır ve nesne algılama gerçekleştirirler. Bu bilgisayarlı görü (BV) görevi, bir görüntü veya video içindeki nesnelerin varlığını ve konumunu belirlemeyi içerir; bu işlem genellikle nesnelerin etrafına bir sınırlayıcı kutu çizilerek ve bir sınıf etiketi atanarak yapılır. Mimari, modelin görsel bilgileri nasıl işlediği ve tahminlerde nasıl bulunduğu da dahil olmak üzere yapısını tanımlar. Mimari seçimi kritiktir çünkü bir modelin hızını, doğruluğunu ve hesaplama gereksinimlerini doğrudan etkiler.
Nesne Algılama Mimarileri Nasıl Çalışır
Çoğu modern nesne algılama mimarisi, sırayla çalışan üç ana bileşenden oluşur:
- Backbone (Temel Ağ): Bu, genellikle ImageNet gibi büyük bir görüntü sınıflandırma veri kümesi üzerinde önceden eğitilmiş bir evrişimsel sinir ağıdır (CNN). Birincil rolü, girdi görüntüsünü hiyerarşik görsel bilgileri yakalayan bir dizi özellik haritasına dönüştürerek bir özellik çıkarıcı görevi görmektir. Popüler temel ağlar arasında birçok YOLO modelinde kullanılan ResNet ve CSPDarknet bulunur. CNN'lerin temelleri hakkında IBM'in ayrıntılı genel bakışı gibi kaynaklardan daha fazla bilgi edinebilirsiniz.
- Boyun: Bu isteğe bağlı bileşen, omurga ve baş arasında yer alır. Omurga tarafından oluşturulan özellik haritalarını toplar ve iyileştirir, genellikle çeşitli boyutlardaki nesnelerin tespitini iyileştirmek için farklı ölçeklerden gelen özellikleri birleştirir. Örnekler arasında Özellik Piramidi Ağları (FPN'ler) bulunur.
- Tespit Başlığı (Detection Head): Başlık, tahminleri yapmaktan sorumlu olan son bileşendir. Boyundan (veya doğrudan omurgadan) işlenmiş özellik haritalarını alır ve tespit edilen her nesne için sınıf olasılıklarını ve sınırlayıcı kutu koordinatlarını verir.
Mimari Türleri
Nesne algılama mimarileri, tahmin yaklaşımlarına göre geniş ölçüde sınıflandırılır ve bu da hız ile doğruluk arasında bir dengeye yol açar. Bu dengeleri uygulamada görmek için ayrıntılı model karşılaştırmalarını inceleyebilirsiniz.
- İki Aşamalı Nesne Dedektörleri: R-CNN ailesi gibi bu modeller, önce bir dizi aday nesne bölgesini (bölge önerileri) tanımlar ve ardından her bölgeyi sınıflandırır. Bu iki adımlı işlem yüksek doğruluk sağlayabilir, ancak genellikle daha yavaştır.
- Tek Aşamalı Nesne Dedektörleri: Ultralytics YOLO (You Only Look Once) ailesi gibi mimariler, nesne tespitini tek bir regresyon problemi olarak ele alır. Sınırlayıcı kutuları ve sınıf olasılıklarını tek geçişte tam görüntüden doğrudan tahmin ederek gerçek zamanlı çıkarım sağlarlar.
- Anchor-Free (Çapa Kutusu Kullanmayan) Dedektörler: Tek aşamalı dedektörlerdeki daha yeni bir evrim olan, Ultralytics YOLO11 gibi anchor-free mimariler, önceden tanımlanmış çapa kutularına olan ihtiyacı ortadan kaldırır. Bu, eğitim sürecini basitleştirir ve genellikle daha hızlı, daha verimli modellere yol açar.
Gerçek Dünya Uygulamaları
Nesne algılama mimarileri, çeşitli sektörlerdeki çok sayıda yapay zeka uygulamasına güç sağlar:
Araçlar ve Teknolojiler
Bu mimarilere dayalı modeller geliştirmek ve dağıtmak genellikle özel araçlar ve çerçeveler içerir: