Kapsül Ağlarını (CapsNets) keşfedin: Mekansal hiyerarşilerde ve özellik ilişkilerinde mükemmel olan çığır açan bir sinir ağı mimarisi.
Genellikle CapsNets olarak kısaltılan Kapsül Ağları, geleneksel Evrişimli Sinir Ağlarına (CNN'ler) alternatif olarak tasarlanmış yenilikçi bir sinir ağı (NN ) mimarisi türünü temsil eder. İlk olarak yapay zeka araştırmacısı Geoffrey Hinton ve ekibi tarafından tanıtılan CapsNets, CNN'lerin uzamsal hiyerarşileri ve bir görüntüdeki özellikler arasındaki ilişkileri işleme biçimindeki temel sınırlamaları ele almayı amaçlamaktadır. CNN'ler özellik çıkarma konusunda mükemmel olsa da, havuzlama katmanları kullanmaları kesin uzamsal bilgi kaybına yol açabilir. CapsNets, tek skaler değerler yerine vektörler çıkaran nöron grupları olan "kapsüller" kullanarak farklı bir yaklaşım önermektedir. Bu vektörler, poz (konum, yönelim, ölçek) ve özelliğin var olma olasılığı gibi özellikler de dahil olmak üzere tespit edilen özellikler hakkında daha zengin bilgileri kodlar. Bu yapı, CapsNets'in parça-bütün ilişkilerini daha iyi modellemesini ve uzamsal farkındalığı korumasını sağlayarak bilgisayarla görme (CV) görevlerinde bakış açısı değişikliklerine karşı potansiyel olarak daha iyi sağlamlık sağlar.
Bir CapsNet'in merkezi unsuru "kapsül "dür. Standart nöronların aksine, her kapsül girdinin bir bölgesindeki belirli bir varlığı tespit eder ve bir vektör çıktısı verir. Vektörün büyüklüğü (uzunluğu) tespit edilen varlığın var olma olasılığını gösterirken, yönelimi de varlığın kesin pozu veya doku detayları gibi örnekleme parametrelerini temsil eder. Bu vektör tabanlı çıktı, diğer birçok derin öğrenme (DL) modelinde tipik olan skaler aktivasyon ile keskin bir tezat oluşturmaktadır.
Alt katmanlardaki kapsüller, dönüşüm matrislerini kullanarak üst katmanlardaki kapsüllerin çıktıları için tahminler üretir. "Anlaşmaya göre yönlendirme" olarak bilinen önemli bir mekanizma, bu katmanlar arasındaki bağlantıları dinamik olarak belirler. Birden fazla alt düzey kapsülden gelen tahminler, daha üst düzey bir özelliğin varlığı ve pozu konusunda hizalanırsa (anlaşırsa), karşılık gelen üst düzey kapsül aktif hale gelir. Bu dinamik yönlendirme süreci, ağın parçaları tanımasını ve bunların bir bütün halinde nasıl bir araya geldiklerini anlamasını sağlayarak mekansal hiyerarşileri etkili bir şekilde korur. Temel fikirler"Kapsüller Arasında Dinamik Yönlendirme" makalesinde ayrıntılı olarak açıklanmıştır. Bu yaklaşım, nesne kompozisyonunun incelikli bir şekilde anlaşılmasını gerektiren görevlerde yardımcı olur ve kapsamlı veri artırımına daha az ihtiyaç duyarak performansı potansiyel olarak artırır.
CapsNets, özellikle uzamsal verilerin işlenmesi ve özelliklerin temsil edilmesinde yaygın olarak kullanılan CNN'lere kıyasla farklı bir paradigma sunar:
CapsNets, geleneksel sinir ağı mimarilerine göre çeşitli potansiyel avantajlar sunar:
CapsNets hala öncelikle aktif bir araştırma alanı olmasına ve aşağıdaki gibi yerleşik modellerden daha az yaygın olarak kullanılmasına rağmen Ultralytics YOLO veya YOLO11çeşitli alanlarda umut vaat ettiklerini göstermişlerdir:
Diğer potansiyel uygulamalar arasında, özellikle dağınık sahneler için nesne algılamayı iyileştirmek, robotikte sahne anlayışını geliştirmek ve otonom araçlar için daha sağlam algılama sistemlerine katkıda bulunmak yer almaktadır. Hesaplama talepleri bir zorluk olmaya devam ederken, devam eden araştırmalar daha geniş makine öğrenimi (ML) uygulamaları ve aşağıdaki gibi çerçevelere potansiyel entegrasyon için CapsNet verimliliğini optimize etmeyi amaçlamaktadır PyTorch veya TensorFlow. CapsNets'in gelecekteki manzarada nereye uyabileceğini anlamak için farklı nesne algılama modelleri arasındaki karşılaştırmaları keşfedebilirsiniz.