Kapsül Ağlarını (CapsNets) keşfedin: Mekansal hiyerarşilerde ve özellik ilişkilerinde mükemmel olan çığır açan bir sinir ağı mimarisi.
Genellikle CapsNets olarak kısaltılan Kapsül Ağları, Evrişimsel Sinir Ağlarının (CNN'ler) bazı temel sınırlamalarının üstesinden gelmek için tasarlanmış bir tür sinir ağı (NN ) mimarisidir. Geoffrey Hinton ve ekibi tarafından tanıtılan CapsNets, bir görüntüdeki özellikler arasındaki hiyerarşik ilişkileri daha iyi tanımayı amaçlamaktadır. Tek bir skaler değer çıktısı veren standart bir CNN'deki nöronların aksine, CapsNet'teki "kapsüller" bir vektör çıktısı vererek bir nesnenin poz (konum, boyut, yönelim), deformasyon ve doku gibi özellikleri hakkında daha ayrıntılı bilgileri kodlamalarına olanak tanır. Bu yapı, onları bakış açısı ve yönelimdeki değişikliklere karşı doğal olarak daha sağlam hale getirir.
CapsNets'in arkasındaki temel yenilik, özellikler arasındaki uzamsal hiyerarşileri koruma yetenekleridir. Bir CNN ağız, burun ve gözler gibi bir yüzün bileşenlerini tanıyabilirken, bunların uzamsal ilişkilerini açıkça anlamaz. Ancak CapsNets, bu parçaları ve göreceli yönlerini tanımlamak için kapsül adı verilen nöron gruplarını kullanır. Bu, daha düşük seviyeli kapsüllerin çıktılarını bulgularını en iyi şekilde açıklayabilecek daha yüksek seviyeli kapsüllere gönderdiği "dinamik yönlendirme" adı verilen bir süreçle elde edilir. Bu yaklaşım, genellikle önemli uzamsal bilgileri göz ardı eden CNN'lerdeki havuzlama katmanlarından temelde farklıdır. Orijinal konsept, Kapsüller Arasında Dinamik Yönlendirme başlıklı makalede ayrıntılı olarak açıklanmıştır.
CapsNets ve CNN'ler arasındaki temel fark, uzamsal bilgi ve soyutlamayı nasıl ele aldıklarında yatmaktadır.
Ultralytics YOLO gibi modeller pratik bilgisayarla görme (CV) görevlerinde hız ve doğruluk için son derece optimize edilmişken, CapsNets görsel sahnelerin temel anlayışını geliştirmeye odaklanan alternatif bir mimari felsefeyi temsil eder. Mevcut manzarayı anlamak için farklı nesne algılama modelleri arasındaki karşılaştırmaları keşfedebilirsiniz.
CapsNets hala aktif bir araştırma alanı olmasına ve YOLO11 gibi yerleşik modellerden daha az yaygın olarak kullanılmasına rağmen, çeşitli alanlarda umut vaat ettiklerini göstermişlerdir:
Diğer potansiyel uygulamalar arasında, özellikle dağınık sahneler için nesne algılamayı iyileştirmek, robotikte sahne anlayışını geliştirmek ve otonom araçlar için daha sağlam algılama sistemlerine katkıda bulunmak yer almaktadır. Hesaplama talepleri bir zorluk olmaya devam ederken, devam eden araştırmalar daha geniş makine öğrenimi (ML) uygulamaları ve PyTorch veya TensorFlow gibi çerçevelere potansiyel entegrasyon için CapsNet verimliliğini optimize etmeyi amaçlamaktadır.