Capsule Networks (CapsNet)

Kapsül Ağlarını (CapsNets) ve CNN'lerin sınırlamalarını nasıl çözdüklerini keşfet. Dinamik yönlendirme, mekansal hiyerarşiler ve CapsNet'leri YOLO26 ile karşılaştırma hakkında bilgi edin.

Kapsül Ağları, genellikle CapsNet olarak kısaltılır, derin öğrenme alanında geleneksel sinir ağlarında bulunan belirli sınırlamaların üstesinden gelmek için tasarlanmış gelişmiş bir mimariyi temsil eder. Geoffrey Hinton ve ekibi tarafından tanıtılan CapsNet'ler, standart modellerden ziyade insan beyninin biyolojik sinir organizasyonunu daha yakından taklit etmeye çalışır. Özellikleri tespit etmede başarılı olan ancak örnekleme nedeniyle genellikle uzamsal ilişkileri kaybeden tipik bir evrişimli sinir ağının (CNN) aksine, bir Kapsül Ağı nöronları "kapsül" adı verilen gruplar halinde düzenler. Bu kapsüller, yalnızca bir nesnenin var olma olasılığını değil, aynı zamanda yönelim, boyut ve doku gibi belirli özelliklerini de kodlayarak görsel veriler içindeki hiyerarşik uzamsal ilişkileri etkin bir şekilde korur.

Link to this sectionGeleneksel CNN'lerin Sınırlaması#

CapsNet'lerin yeniliğini anlamak için standart bilgisayarlı görü modellerinin nasıl çalıştığına bakmak faydalıdır. Geleneksel bir CNN, hesaplama yükünü azaltmak ve çeviri değişmezliği elde etmek için özellik çıkarımını takiben havuzlama katmanlarını, özellikle maksimum havuzlamayı kullanır. Bu, bir CNN'in bir "kedi"yi görüntüde nerede olursa olsun tanımlayabileceği anlamına gelir.

Ancak, bu süreç genellikle kesin konum verilerini atarak "Picasso problemine" yol açar: Bir CNN, ağzı alnında olsa bile gerekli tüm özellikler mevcut olduğu için bir yüzü doğru şekilde sınıflandırabilir. CapsNet'ler, havuzlama katmanlarını kaldırıp bunları nesnelerin uzamsal hiyerarşilerine saygı duyan bir süreçle değiştirerek bu sorunu ele alır.

Link to this sectionKapsül Ağları Nasıl Çalışır?#

Bu mimarinin temel yapı taşı, skaler bir değer yerine bir vektör çıktısı veren iç içe geçmiş bir nöron kümesi olan kapsüldür. Vektör matematiğinde, bir vektör hem büyüklüğe hem de yöne sahiptir. Bir CapsNet'te:

Büyüklük (Uzunluk): Mevcut girişte belirli bir varlığın mevcut olma olasılığını temsil eder.
Yön (Yönelim): Nesnenin poz kestirimi, ölçeği ve dönüşü gibi örnekleme parametrelerini kodlar.

Alt katmanlardaki kapsüller (kenarlar gibi basit şekilleri tespit eden), üst katmanlardaki kapsüllerin (gözler veya lastikler gibi karmaşık nesneleri tespit eden) çıktısını tahmin eder. Bu iletişim, "dinamik yönlendirme" veya "uzlaşıyla yönlendirme" adı verilen bir algoritma tarafından yönetilir. Alt düzey bir kapsülün tahmini, üst düzey kapsülün durumuyla uyumluysa, aralarındaki bağlantı güçlendirilir. Bu, ağın, CNN'lere dönüş ve ölçek hakkında bilgi vermek için genellikle ihtiyaç duyulan devasa veri artırma süreçlerine gerek kalmadan nesneleri farklı 3B bakış açılarından tanımasını sağlar.

Link to this sectionTemel Farklar: CapsNet'ler ve CNN'ler#

Her iki mimari de bilgisayarlı görü (CV) için temel olsa da, görsel verileri işleme ve temsil etme biçimlerinde farklılık gösterirler:

Skaler ve Vektör: CNN nöronları, özellik varlığını belirtmek için skaler çıktıları kullanır. CapsNet'ler, varlığı (uzunluk) ve poz parametrelerini (yönelim) kodlamak için vektörleri kullanır.
Yönlendirme ve Havuzlama: CNN'ler, verileri örneklemek için havuzlamayı kullanır ve genellikle konum ayrıntılarını kaybeder. CapsNet'ler, uzamsal verileri korumak için dinamik yönlendirmeyi kullanır ve bu da onları hassas nesne takibi gerektiren görevler için oldukça etkili kılar.
Veri Verimliliği: Kapsüller 3B bakış açılarını ve afin dönüşümleri örtük olarak anladıkları için, genellikle bir nesnenin her olası dönüşünü öğrenmek için kapsamlı örnekler gerektirebilecek CNN'lere kıyasla daha az eğitim verisiyle genelleme yapabilirler.

Link to this sectionGerçek Dünya Uygulamaları#

CapsNet'ler genellikle YOLO26 gibi optimize edilmiş modellerden daha yüksek hesaplama maliyetine sahip olsa da, özel alanlarda belirgin avantajlar sunarlar:

Tıbbi Görüntü Analizi: Sağlık hizmetlerinde, bir anomalinin kesin yönelimi ve şekli kritiktir. Araştırmacılar, modelin bir tümörü, standart CNN'lerin gözden kaçırabileceği ince uzamsal hiyerarşilere dayanarak çevresindeki dokudan ayırt etmesi gereken beyin tümörü segmentasyonunda CapsNet'leri uygulamıştır. Tıbbi Görüntülemede Kapsül Ağları hakkındaki ilgili araştırmaları inceleyebilirsin.
Örtüşen Rakam Tanıma: CapsNet'ler, özellikle rakamların örtüştüğü senaryolarda MNIST veri kümesinde en son teknoloji sonuçlara ulaşmıştır. Ağ, her rakamın "pozunu" takip ettiğinden, iki örtüşen sayıyı (örneğin, 5'in üzerindeki bir 3) tek bir karışık özellik haritasına dönüştürmek yerine farklı nesneler olarak ayırabilir.

Link to this sectionPratik Bağlam ve Uygulama#

Kapsül Ağları öncelikle bir sınıflandırma mimarisidir. Teorik dayanıklılık sunsalar da, modern endüstriyel uygulamalar genellikle gerçek zamanlı performans için yüksek hızlı CNN'leri veya Transformer'ları tercih eder. Ancak, MNIST gibi CapsNet'ler için kullanılan sınıflandırma ölçütlerini anlamak faydalıdır.

The following example demonstrates how to train a modern YOLO classification model on the MNIST dataset using the ultralytics package. This parallels the primary benchmark task used to validate Capsule Networks.

from ultralytics import YOLO

# Load a YOLO26 classification model (optimized for speed and accuracy)
model = YOLO("yolo26n-cls.pt")

# Train the model on the MNIST dataset
# This dataset helps evaluate how well a model learns handwritten digit features
results = model.train(data="mnist", epochs=5, imgsz=32)

# Run inference on a sample image
# The model predicts the digit class (0-9)
predict = model("https://docs.ultralytics.com/datasets/classify/mnist/")

Link to this sectionKapsüllerin ve Görüntüleme AI'nın Geleceği#

The principles behind Capsule Networks continue to influence AI safety and interpretability research. By explicitly modeling part-whole relationships, capsules offer a "glass box" alternative to the "black box" nature of deep neural networks, making decisions more explainable. Future developments look to combine the spatial robustness of capsules with the inference speed of architectures like YOLO11 or the newer YOLO26 to improve performance in 3D object detection and robotics. Researchers are also exploring Matrix Capsules with EM Routing to further reduce the computational cost of the agreement algorithm.

Veri kümelerini yönetmek ve modelleri verimli bir şekilde eğitmek isteyen geliştiriciler için Ultralytics Platform, verileri etiketlemek, bulutta eğitmek ve CNN'lerin hızı ile karmaşık görü görevleri için gereken doğruluğu dengeleyen modelleri dağıtmak için birleşik bir ortam sağlar.