Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

Görüntü Dönüştürücü (ViT)

Bilgisayarlı görüde Vision Transformer'ların (ViT'ler) gücünü keşfedin. Global görüntü bağlamını yakalayarak CNN'lerden nasıl daha iyi performans gösterdiklerini öğrenin.

Bir Vizyon Dönüştürücüsü (ViT) bir uygulayan derin öğrenme mimarisi Orijinal Transformer modelinin ilkelerini doğrudan görüntü dizilerine uygular. Orijinal olarak Doğal Dil İşleme (NLP), Transformatörler, modelin farklı özelliklerin önemini tartmasına olanak tanıyan mekanizmalar kullanarak bu alanda devrim yaratmıştır. giriş verilerinin parçaları. ViT, Google Research tarafından aşağıdaki makalede önerilmiştir "Bir Resim 16x16 K elimeye Bedeldir "e alternatif olarak standart Evrişimsel Sinir Ağı (CNN) görsel görevler için. Yerel filtreler kullanarak pikselleri işleyen CNN'lerin aksine, ViT'ler bir görüntüyü bir dizi olarak ele alır. sabit boyutlu yamalar, ilk katmandan itibaren küresel bağlamı ve uzun menzilli bağımlılıkları yakalamalarını sağlar kendi dikkatini kullanarak.

Görüntü Transformatörleri Nasıl Çalışır

Bir ViT'nin mimarisi, makinelerin görsel bilgileri işleme biçiminde önemli bir değişimi temsil eder. İş akışı bir görüntüyü cümledeki kelimelere benzer şekilde işlenebilecek daha küçük bileşenlere ayırmayı içerir.

  1. Yama Bölümleme: Giriş görüntüsü örtüşmeyen yamalardan oluşan bir ızgaraya bölünür (örn. 16x16 piksel). Bu adım, 2D görüntüyü bir dizi 1D vektöre dönüştürerek görsel verileri etkili bir şekilde belirtir.
  2. Düzleştirilmiş Yamaların Doğrusal Projeksiyonu: Her bir yama düzleştirilir ve bir daha düşük boyutlu uzay, gömülmeler oluşturarak o bölgenin görsel özelliklerini temsil eder.
  3. Konumsal Yerleştirmeler: Transformatör mimarisi doğası gereği sıralamayı anlamadığından dizisinin öğrenilebilir konumsal katıştırmaları, uzamsal bilgileri korumak için yama katıştırmalarına eklenir Her bir yamanın orijinal görüntüde nerede bulunduğu hakkında.
  4. Transformatör Kodlayıcı: Gömme dizisi standart bir Transformatör kodlayıcıya beslenir. İşte, dikkat mekanizması modelin aşağıdakileri yapmasını sağlar birbirlerine olan uzaklıklarına bakılmaksızın, her yama ve diğer her yama arasındaki ilişkileri öğrenir. görüntü.
  5. Sınıflandırma Başlığı: Gibi görevler için görüntü sınıflandırması, özel bir belirteç diziye eklenir ve son durumu, sınıfı tahmin etmek için bir Çok Katmanlı Algılayıcı (MLP) kafasına beslenir Etiket.

ViT Vs. CNN Mimarileri

Her iki mimari de modern mimarinin temelini oluştursa da bilgisayarlı görü (CV), farklı tümevarımsal önyargılar. CNN'ler konvolüsyon işlemlerini kullanır yerel etkileşimlere ve öteleme değişmezliğine (bir nesneyi konumundan bağımsız olarak tanıma) öncelik verir. Bu CNN'leri daha küçük veri kümelerinde oldukça verimli hale getirir. Buna karşılık, ViT'ler daha az görüntüye özgü yapıya sahiptir ve gibi büyük veri kümelerinden doğrudan öğrenme modelleri ImageNet.

ViT'ler genellikle çok büyük miktarda veri üzerinde eğitildiklerinde, karmaşık küresel ilişkileri modelleyebildikleri için mükemmeldirler. CNN'ler kaçırabilir. Bununla birlikte, bu küresel kapsam genellikle aşağıdakiler için daha yüksek hesaplama gereksinimleri pahasına gelir kısıtlı kaynaklarda eğitim ve daha yavaş çıkarım hızları uç cihazlar. Hibrit modeller gibi RT-DETR bir CNN'i birleştirerek bu boşluğu doldurmaya çalışmaktadır. backbone ile verimli özellik çıkarımı için Küresel bağlam için transformatör kodlayıcı.

Gerçek Dünya Uygulamaları

Görüntü Dönüştürücüler, bir sahnenin bütünsel bağlamını anlamanın daha kritik olduğu alanlarda başarıya ulaşmıştır düşük seviyeli doku detaylarından daha fazla.

  • Tıbbi Görüntü Analizi: Gibi alanlarda tıbbi görüntü analizi, ViT'ler aşağıdakiler için kullanılır MRI taramalarında veya X-ışınlarında anormallikleri detect eder. Örneğin, içinde tümör tespiti, ViT, bir organın uzak bölgelerinden gelen özellikleri ilişkilendirerek normal görünebilecek kötü huylu dokuları tespit edebilir izolasyon, teşhis doğruluğunu artırır.
  • Uzaktan Algılama ve Uydu Görüntüleri: ViT'ler analiz etmek için etkin bir şekilde kullanılır uydu görüntüleri çevresel izleme için. Küresel bağlamı işleme yetenekleri, benzer bağlamlar arasında ayrım yapmalarına yardımcı olur. Farklı ekin tarlaları arasında ayrım yapmak veya geniş bir coğrafyada kentsel genişlemeyi izlemek gibi arazi türleri alanlar.

Ultralytics ile Transformatör Kullanımı

Bu ultralytics paketi RT-DETR (Gerçek Zamanlı Algılama) gibi Transformatör tabanlı mimarileri destekler. Transformatör) için ViT'lerin güçlü yönlerinden yararlanan nesne algılama. CNN tabanlı modeller gibi tavsiye edilir YOLO11 gerçek zaman için genellikle daha hızlıdır uygulamalarında, RT-DETR yüksek doğruluk ve küresel bağlam öncelikli olduğunda sağlam bir alternatif sunar.

from ultralytics import RTDETR

# Load a pretrained RT-DETR model (Transformer-based architecture)
model = RTDETR("rtdetr-l.pt")

# Perform inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results with bounding boxes
results[0].show()

İleriye baktığımızda, verimlilik alanındaki yenilikler çok önemlidir. Ultralytics şu anda geliştiriyor YOLO26, yüksek doğruluk oranına ulaşmayı hedefliyor Transformers ile CNN'lerin hızını korurken. Ayrıca, yaklaşan Ultralytics Platformu, eğitim ve dağıtım için iş akışını kolaylaştıracak Bu gelişmiş modeller, bulut sunucularından uç donanımlara kadar çeşitli ortamlarda kullanılabilir. Gibi büyük çerçeveler PyTorch ve TensorFlow genişletmeye devam ediyor ViT varyantları için destek sağlayarak bu alanda daha fazla araştırma yapılmasını teşvik etmektedir.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın