Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

Kapsül Ağları (CapsNet)

Uzamsal hiyerarşilerde ve özellik ilişkilerinde öne çıkan, çığır açan bir sinir ağı mimarisi olan Capsule Networks'ü (CapsNets) keşfedin.

Kapsül Ağları (CapsNets), kapsül ağları alanında sofistike bir evrimi temsil etmektedir. derin öğrenme (DL) belirli konuları ele almak için tasarlanmıştır geleneksel olarak bulunan sınırlamalar Evrişimsel Sinir Ağları (CNN'ler). İlk olarak ünlü araştırmacı Geoffrey Hinton ve ekibi tarafından Meslektaşlarım, bu mimari nöronları "kapsül" olarak bilinen gruplar halinde organize eder. Standart nöronların aksine tek bir skaler aktivasyon değeri çıktısı verirken, bir kapsül bir vektör çıktısı verir. Bu vektör yönü ve uzunluğu bir nesne hakkında kesin konumu, boyutu, yönü ve dokusu gibi daha zengin bilgileri kodlamak için ağ. Bu yetenek, modelin özellikler arasındaki hiyerarşik ilişkileri daha iyi anlamasını sağlar, esasen görsel bir sahnenin yapısını bozmak için "ters grafikler" gerçekleştiriyor.

Çekirdek Mekanizmayı Anlamak

Bir CapsNet'in tanımlayıcı özelliği, farklı parçalar arasındaki mekansal ilişkileri koruma yeteneğidir bir nesnenin. Standart bir CNN'ler, katmanlar kullanarak bilgisayarla görme (CV) iş akışı genellikle boyutluluğu azaltmak için havuzlama işlemlerini kullanır, bu da tipik olarak kesin uzamsal verileri elde etmek için atar değişmezlik. Bununla birlikte, CapsNets "eşdeğişmezliği" hedefler, yani bir nesne hareket ederse veya dönerse görüntüde, kapsülün vektör temsili tanınmaz hale gelmek yerine orantılı olarak değişir.

Bu, "dinamik yönlendirme" veya "anlaşmaya göre yönlendirme" adı verilen bir süreçle gerçekleştirilir. Bunun yerine basitçe sinyalleri bir sonraki katmandaki tüm nöronlara iletirken, daha düşük seviyeli kapsüller çıktılarını daha yüksek seviyeli nöronlara gönderir. tahminleriyle "aynı fikirde" olan kapsüller. Örneğin, burnu tespit eden bir kapsül güçlü bir sinyal verecektir. mekansal yönelim hizalanırsa kapsülle yüzleşir, bu da kapsülün yapısal anlayışını güçlendirir. özellik çıkarma işlemi. Bu kavram ile ilgili araştırma makalesinde ayrıntılı olarak açıklanmıştır. Kapsüller Arası Dinamik Yönlendirme.

CapsNets'i CNN'lerden Ayırt Etme

Her iki mimarinin de önemli bir yeri olsa da makine öğrenimi (ML), ayrışırlar görsel verileri nasıl işledikleri konusunda önemli ölçüde farklılık göstermektedir:

  • Skaler ve Vektör Çıktıları: CNN nöronları bir özelliğin varlığını gösteren skaler bir değer sağlar. CapsNets, bir varlığın varlığını ve özelliklerini (poz, deformasyon, renk tonu) temsil etmek için vektör çıktıları kullanır.
  • Havuzlama ve Yönlendirme: CNN'ler şunları kullanır havuzlama katmanları (max havuzlama), genellikle konum ayrıntılarını kaybederek öteleme değişmezliği elde etmek için. CapsNets dinamik yönlendirme kullanarak gibi görevler için potansiyel olarak daha etkili hale getirerek mekansal hiyerarşileri korur. poz tahmini.
  • Veri Verimliliği: CapsNets bakış açısı varyasyonlarını dahili olarak kodladığından, daha az genelleştirmek için eğitim verileri geleneksel modeller, ki bunlar genellikle kapsamlı rotasyon veya afin öğrenmek için veri artırımı dönüşümler.

Gerçek Dünya Uygulamaları

CapsNets hesaplama açısından yoğun olmasına ve aşağıdaki gibi optimize edilmiş mimarilerden daha az yaygın olarak benimsenmesine rağmen YOLO11belirli yüksek riskli alanlarda umut vaat ettiklerini göstermişlerdir. etki alanları:

  1. Tıbbi Görüntü Analizi: Uzamsal hiyerarşileri işleme yeteneği CapsNets'i aşağıdakiler için değerli kılar tıbbi görüntü analizi. Örneğin, araştırmacılar bunları beyin tümörü segmentasyonu, burada ayırt edici Bir tümörün çevre dokulardan kesin şekli ve yönelimi doğru tanı için kritik öneme sahiptir.
  2. El Yazısı Rakam Tanıma: CapsNets en son teknoloji ürünü performansa ulaştı MNIST veri seti, özellikle senaryolarda üst üste binen rakamları içeren standart görüntü sınıflandırma modelleri zorlanabilir özellikleri ayırmak için.

Pratik Uygulama

CapsNets teorik avantajlar sunarken, modern endüstri standartları genellikle yüksek düzeyde optimize edilmiş CNN veya Hız için dönüştürücü tabanlı modeller. Bununla birlikte, sınıflandırma görevlerini deneyebilirsiniz. CapsNets-kullanarak ultralytics kütüphane. Aşağıdaki örnekte bir YOLO11 'in eğitimi gösterilmektedir Hiyerarşik özellik tanımayı test etmek için yaygın bir oyun alanı olan MNIST veri kümesi üzerinde sınıflandırma modeli.

from ultralytics import YOLO

# Load a pretrained YOLO11 classification model
model = YOLO("yolo11n-cls.pt")

# Train on the MNIST dataset (automatically downloaded)
# This task parallels classic CapsNet benchmarks
results = model.train(data="mnist", epochs=5, imgsz=64)

# Run inference on a sample digit image
predict_results = model.predict("path/to/digit_image.png")

Geleceğe Bakış

Kapsül Ağları üzerine yapılan araştırma, Kapsül Ağlarının gelişimini etkilemeye devam ediyor. Yapay zeka güvenliği ve yorumlanabilirlik. Açıkça modelleyerek parça-bütün ilişkileri, YZ'nin "kara kutu" doğasına kıyasla daha açıklanabilir bir yol sunarlar. bazı derin ağlar. Gelecekteki gelişmeler, bu kavramları aşağıdakilere entegre etmeye odaklanabilir 3 boyutlu nesne algılama ve gibi modellerin verimliliğini potansiyel olarak birleştirerek yönlendirme algoritmalarının hesaplama maliyetini YOLO26 ile kapsüllerin sağlam mekansal anlayışı.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın