Sözlük

Vizyon Dönüştürücüsü (ViT)

Bilgisayarla görmede Görme Dönüştürücülerinin (ViT'ler) gücünü keşfedin. Küresel görüntü bağlamını yakalayarak CNN'lerden nasıl daha iyi performans gösterdiklerini öğrenin.

Vision Transformer (ViT), aslen doğal dil işleme (NLP) için tasarlanmış olan son derece başarılı Transformer modelini bilgisayarla görme (CV) görevlerine uygulayan bir tür sinir ağı mimarisidir. Google araştırmacıları tarafından "Bir Görüntü 16x16 Kelimeye Bedeldir" adlı makalede tanıtılan ViT'ler, baskın Evrişimsel Sinir Ağı (CNN) mimarilerinden önemli bir ayrımı temsil etmektedir. Görüntüleri kayan filtrelerle işlemek yerine, bir ViT bir görüntüyü bir dizi yama olarak ele alır ve kendi kendine dikkat mekanizmasını kullanarak bir görüntünün farklı bölümleri arasındaki küresel ilişkileri yakalamasını sağlar.

Görüş Transformatörleri Nasıl Çalışır?

Bir ViT'nin arkasındaki temel fikir, bir görüntüyü Transformers'ın metni işleyişini taklit edecek şekilde işlemektir. Süreç birkaç temel adımı içerir:

  1. Görüntü Yamalama: Giriş görüntüsü ilk olarak sabit boyutlu, örtüşmeyen yamalardan oluşan bir ızgaraya bölünür. Örneğin, 224x224 piksellik bir görüntü, her biri 16x16 piksel olan 196 yamaya bölünebilir.
  2. Yama Gömme: Her yama tek bir vektör halinde düzleştirilir. Bu vektörler daha sonra "yama katıştırmaları" oluşturmak için daha düşük boyutlu bir uzaya yansıtılır. Uzamsal bilgileri korumak için her bir yama gömüsüne öğrenilebilir bir "konumsal gömme" eklenir.
  3. Transformatör Kodlayıcı: Bu gömme dizisi standart bir Transformer kodlayıcıya beslenir. Model, kendi dikkat katmanları sayesinde tüm yama çiftleri arasındaki ilişkileri öğrenerek ilk katmandan itibaren tüm görüntüdeki global bağlamı yakalamasını sağlar.
  4. Sınıflandırma Başlığı: Görüntü sınıflandırma gibi görevler için, diziye ekstra bir öğrenilebilir gömme ([CLS] BERT'teki belirtece benzer) eklenir. Transformatörden gelen ilgili çıktı, tahmini üretmek için son bir sınıflandırma katmanına aktarılır.

ViT Vs. CNN'ler

Hem ViT'ler hem de CNN'ler bilgisayarla görmede temel mimariler olsa da, yaklaşımlarında önemli farklılıklar vardır:

  • Tümevarımsal Önyargı: CNN'ler, konvolüsyon ve havuzlama katmanları aracılığıyla yerellik ve çeviri eşitliği gibi güçlü tümevarımsal önyargılara (verilerle ilgili varsayımlar) sahiptir. ViT'ler çok daha zayıf tümevarımsal önyargılara sahiptir, bu da onları daha esnek hale getirir, ancak aynı zamanda doğrudan verilerden kalıpları öğrenmeye daha bağımlıdır.
  • Veri Bağımlılığı: Daha zayıf önyargıları nedeniyle, ViT'ler genellikle son teknoloji CNN'lerden daha iyi performans göstermek için büyük veri kümeleri (örneğin, ImageNet-21k) veya kapsamlı ön eğitim gerektirir. Daha küçük veri kümelerinde CNN'ler genellikle daha iyi genelleme yapar. Bu nedenle transfer öğrenimi ViT'ler için kritik önem taşır.
  • Küresel ve Yerel Bağlam: CNN'ler yerel örüntülerden küresel örüntülere kadar hiyerarşik özellikler oluşturur. Buna karşılık, ViT'ler en erken katmanlardan itibaren yamalar arasındaki küresel etkileşimleri modelleyebilir ve potansiyel olarak belirli görevler için daha geniş bağlamı daha etkili bir şekilde yakalayabilir.
  • Hesaplama Maliyeti: ViT'leri eğitmek hesaplama açısından yoğun olabilir ve genellikle önemli GPU kaynakları gerektirir. PyTorch ve TensorFlow gibi çerçeveler bu modellerin eğitimi için uygulamalar sağlar.

Uygulamalar ve Hibrit Modeller

ViT'ler, özellikle küresel bağlamı anlamanın önemli olduğu çeşitli uygulamalarda olağanüstü performans göstermiştir.

  • Tıbbi Görüntü Analizi: ViT'ler, MRI'lar veya histopatoloji görüntüleri gibi tıbbi taramaları analiz etmek için oldukça etkilidir. Örneğin, tümör tespitinde bir ViT, uzak dokular arasındaki ilişkileri belirleyebilir ve tümörlerin yalnızca yerel dokulara odaklanan modellerden daha doğru bir şekilde sınıflandırılmasına yardımcı olabilir.
  • Otonom Sürüş: Sürücüsüz araçlarda ViT'ler nesne algılama ve segmentasyon için karmaşık sahneleri analiz edebilir. Tüm sahneyi küresel olarak işleyerek, çok sayıda otomotiv yapay zeka çalışmasında ayrıntılı olarak açıklandığı gibi, araçlar, yayalar ve altyapı arasındaki etkileşimleri daha iyi anlayabilirler.

ViT'lerin başarısı hibrit mimarilere de ilham vermiştir. RT-DETR gibi modeller, verimli özellik çıkarımı için bir CNN omurgasını, nesne ilişkilerini modellemek için Transformer tabanlı bir kodlayıcı-kod çözücü ile birleştirir. Bu yaklaşım, her iki dünyanın da en iyisini elde etmeyi amaçlamaktadır: CNN'lerin verimliliği ve Transformatörlerin küresel bağlam farkındalığı.

Birçok gerçek zamanlı uygulama için, özellikle kaynak kısıtlı uç cihazlarda, Ultralytics YOLO ailesi (örneğin, YOLOv8 ve YOLO11) gibi yüksek düzeyde optimize edilmiş CNN tabanlı modeller genellikle daha iyi bir hız ve doğruluk dengesi sağlar. Ödünleşimleri anlamak için RT-DETR ve YOLO11 arasında ayrıntılı bir karşılaştırma görebilirsiniz. ViT ve CNN arasındaki seçim nihayetinde belirli bir göreve, mevcut verilere ve hesaplama bütçesine bağlıdır.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve büyüyün

Şimdi katılın
Panoya kopyalanan bağlantı