Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

Vizyon Mamba

Transformers'a alternatif olan doğrusal karmaşıklığa sahip Vision Mamba'yı keşfedin. Durum Uzayı Modellerinin (SSM) yüksek çözünürlüklü bilgisayar görüşünün verimliliğini nasıl artırdığını öğrenin.

Vision Mamba, bilgisayar görme için derin öğrenme mimarilerinde önemli bir değişimi temsil eder ve Transformers'da bulunan dikkat temelli mekanizmaların hakimiyetinden uzaklaşır. Bu, doğal dil işlemede verimli dizi modelleme için tasarlanan Mamba mimarisi, özellikle görsel görevler için uyarlanmış bir versiyonudur . Vision Mamba, Durum Uzayı Modellerini (SSM) kullanarak, geleneksel kendi kendine dikkat katmanlarının kare karmaşıklığına doğrusal bir karmaşıklık alternatifi sunar. Bu, yüksek çözünürlüklü görüntüleri daha verimli bir şekilde işlemesine olanak tanır ve hesaplama kaynaklarının sınırlı olduğu veya görsel verilerdeki uzun menzilli bağımlılıkların, Vision Transformers (ViT) için tipik olan ağır bellek ayak izi olmadan yakalanması gereken uygulamalar için özellikle değerli kılar.

Vision Mamba Nasıl Çalışır?

Vision Mamba'nın temelinde, verileri seçici olarak tarama kavramı yatmaktadır. Geleneksel Konvolüsyonel Sinir Ağları (CNN'ler) , görüntüleri yerel kayan pencereler kullanarak işler. Bu pencereler, dokuları ve kenarları algılamada mükemmeldir, ancak küresel bağlamda zorluk çeker. Buna karşılık, Transformatörler, her pikseli (veya yamayı) diğer tüm piksellerle ilişkilendirmek için küresel dikkat kullanır. Bu, mükemmel bir bağlam sağlar, ancak görüntü çözünürlüğü arttıkça hesaplama açısından maliyetli hale gelir. Vision Mamba , görüntüleri dizilere düzleştirerek ve seçici durum alanları kullanarak işleyerek bu boşluğu doldurur. Bu, modelin görsel bilgileri sabit boyutlu bir duruma sıkıştırmasına olanak tanır ve görüntü dizisinde uzun mesafeler boyunca ilgili ayrıntıları korurken ilgisiz gürültüyü atar.

Mimari tipik olarak çift yönlü bir tarama mekanizması içerir. Görüntüler 2D yapılar olduğundan ve metin gibi doğası gereği sıralı olmadığından, Vision Mamba görüntü yamalarını ileri ve geri yönlerde (ve bazen değişen yollarla) tarayarak tarama sırasından bağımsız olarak uzamsal ilişkilerin anlaşılmasını sağlar. Bu yaklaşım, modelin Transformers'a benzer küresel alıcı alanlar elde etmesini sağlar, ancak daha hızlı çıkarım hızları ve daha düşük bellek kullanımı ile, genellikle ImageNetgibi en son teknolojiye sahip sonuçlarla rekabet eder.

Gerçek Dünya Uygulamaları

Vision Mamba'nın verimliliği, kaynakların sınırlı olduğu ortamlar ve yüksek çözünürlüklü görevler için son derece uygun olmasını sağlar.

  • Tıbbi Görüntü Analizi: Radyoloji gibi alanlarda, yüksek çözünürlüklü MRI veya CT taramalarını analiz etmek büyük bir görüntü içinde uzamsal olarak uzak olabilecek ince anomalileri tespit etmeyi gerektirir. Vision Mamba, bu büyük tıbbi görüntü analiz dosyalarını standart Transformer'ları sık sık etkileyen bellek darboğazları olmadan etkili bir şekilde işleyebilir ve doktorların tümörleri veya kırıkları yüksek hassasiyetle tanımlamasına yardımcı olur.
  • Kenar Cihazlarda Otonom Navigasyon: Otonom araçlar ve dronlar, video akışlarını gerçek zamanlı olarak işlemek için kenar bilişimine güveniyor. Vision Mamba'nın doğrusal ölçeklendirme özelliği, bu sistemlerin nesne algılama ve anlamsal segmentasyon için yüksek kare hızına sahip video girdilerini ağır Transformer modellerinden daha verimli bir şekilde işlemesini sağlayarak, güvenlik açısından kritik kararlar için daha hızlı tepki süreleri sunuyor.

Vision Mamba ve Vision Transformers (ViT)

Her iki mimari de küresel bağlamı yakalamayı amaçlasa da, işleyişleri temel olarak farklıdır.

  • Vision Transformer (ViT): Dikkat mekanizmasına dayanır ve her görüntü parçası çifti arasındaki ilişkiyi hesaplar. Bu, ikinci dereceden karmaşıklık ($O(N^2)$) ile sonuçlanır, yani görüntü boyutunun iki katına çıkması hesaplama maliyetini dört katına çıkarır.
  • Vision Mamba: Görsel simgeleri doğrusal olarak ($O(N)$) işlemek için Durum Uzayı Modellerini (SSM) kullanır. Yeni yamalar gördükçe güncellenen bir çalışma durumu sürdürür, bu da benzer bir doğruluğu korurken daha yüksek çözünürlüklerle çok daha iyi ölçeklenmesini sağlar.

Örnek: Verimli Çıkarım İş Akışı

Vision Mamba belirli bir mimari olsa da, verimlilik ilkeleri modern gerçek zamanlı modellerin hedefleriyle uyumludur. örneğin Ultralytics YOLO26. Optimize edilmiş görme görevleri arayan kullanıcılar, Ultralytics Platformu eğitim ve uygulama için. Aşağıda, ultralytics çıkarım çalıştırmak için paket, yüksek düzeyde optimize edilmiş görme modellerinin kullanım kolaylığını göstermektedir. .

from ultralytics import YOLO

# Load a pre-trained YOLO26 model (optimized for speed and accuracy)
model = YOLO("yolo26n.pt")  # 'n' for nano, emphasizing efficiency

# Run inference on an image
results = model.predict("path/to/image.jpg")

# Display the results
results[0].show()

Temel Avantajlar ve Gelecek Beklentileri

Mamba tabanlı mimarilerin bilgisayar görüşüne dahil edilmesi, donanımdan daha fazla haberdar olan bir yapay zekaya doğru bir geçişin işaretidir. Küresel dikkatle ilişkili hesaplama yükünü azaltarak, araştırmacılar daha küçük cihazlarda gelişmiş yapay zeka ajanlarının kullanılmasına olanak sağlamaktadır.

VMamba makalesi ve verimli derin öğrenmedeki gelişmeler gibi son araştırmalar, bu modellerin video anlamadan 3D nesne algılamaya kadar çeşitli görevlerde geleneksel omurgaların yerini alma potansiyelini vurgulamaktadır. Topluluk tarama stratejilerini ve evrişimli katmanlarla entegrasyonu geliştirmeye devam ederken, Vision Mamba CNN'ler ve Transformers ile birlikte derin öğrenme araç kutusunun standart bir bileşeni haline gelmeye hazırlanmaktadır.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın