Uzamsal hiyerarşilerde ve özellik ilişkilerinde öne çıkan, çığır açan bir sinir ağı mimarisi olan Capsule Networks'ü (CapsNets) keşfedin.
Genellikle CapsNet olarak kısaltılan Kapsül Ağları, Evrişimli Sinir Ağları'nın (CNN'ler) bazı temel sınırlamalarının üstesinden gelmek için tasarlanmış bir sinir ağı (NN) mimarisidir. Geoffrey Hinton ve ekibi tarafından tanıtılan CapsNet'ler, bir görüntüdeki özellikler arasındaki hiyerarşik ilişkileri daha iyi tanımayı amaçlar. Standart bir CNN'deki tek bir skaler değer çıkaran nöronların aksine, bir CapsNet'teki "kapsüller" bir vektör çıkarır ve bu da bir nesnenin duruşu (konum, boyut, yön), deformasyon ve doku gibi özellikleri hakkında daha ayrıntılı bilgi kodlamalarına olanak tanır. Bu yapı, onları bakış açısı ve yön değişikliklerine karşı doğal olarak daha dayanıklı hale getirir.
CapsNet'lerin ardındaki temel yenilik, özellikler arasındaki uzamsal hiyerarşileri koruma yetenekleridir. Bir CNN bir yüzün ağız, burun ve göz gibi bileşenlerini tanıyabilirken, uzamsal ilişkilerini açıkça anlamaz. Ancak CapsNet'ler, bu parçaları ve göreli yönlerini tanımlamak için kapsüller adı verilen nöron gruplarını kullanır. Bu, alt düzey kapsüllerin çıktılarını, bulgularını en iyi şekilde açıklayabilen daha yüksek düzeydeki kapsüllere gönderdiği "dinamik yönlendirme" adı verilen bir süreç aracılığıyla elde edilir. Bu yaklaşım, genellikle önemli uzamsal bilgileri atan CNN'lerdeki havuzlama katmanlarından temelde farklıdır. Orijinal konsept, Kapsüller Arasında Dinamik Yönlendirme adlı makalede ayrıntılı olarak açıklanmıştır.
CapsNet'ler ve CNN'ler arasındaki temel ayrım, uzamsal bilgileri ve soyutlamayı nasıl ele aldıklarında yatmaktadır.
Ultralytics YOLO gibi modeller pratik bilgisayarlı görü (BG) görevlerinde hız ve doğruluk için son derece optimize edilmiş olsa da, CapsNet'ler görsel sahnelerin temel anlayışını geliştirmeye odaklanan alternatif bir mimari felsefesini temsil eder. Mevcut durumu anlamak için farklı nesne algılama modelleri arasındaki karşılaştırmaları keşfedebilirsiniz.
CapsNet'ler hala öncelikle aktif bir araştırma alanı olmasına ve YOLO11 gibi yerleşik modellere göre daha az yaygın olarak dağıtılmasına rağmen, çeşitli alanlarda umut vaat etmiştir:
Diğer potansiyel uygulamalar arasında özellikle karmaşık sahneler için nesne tespitini iyileştirmek, robotikte sahne anlamayı geliştirmek ve otonom araçlar için daha sağlam algılama sistemlerine katkıda bulunmak yer almaktadır. Hesaplama talepleri bir zorluk olmaya devam ederken, devam eden araştırmalar CapsNet verimliliğini daha geniş makine öğrenimi (ML) uygulamaları ve PyTorch veya TensorFlow gibi çerçevelere potansiyel entegrasyon için optimize etmeyi amaçlamaktadır.