Bilgisayarlı görüde Vision Transformer'ların (ViT'ler) gücünü keşfedin. Global görüntü bağlamını yakalayarak CNN'lerden nasıl daha iyi performans gösterdiklerini öğrenin.
Bir Vizyon Dönüştürücüsü (ViT) bir uygulayan derin öğrenme mimarisi Orijinal Transformer modelinin ilkelerini doğrudan görüntü dizilerine uygular. Orijinal olarak Doğal Dil İşleme (NLP), Transformatörler, modelin farklı özelliklerin önemini tartmasına olanak tanıyan mekanizmalar kullanarak bu alanda devrim yaratmıştır. giriş verilerinin parçaları. ViT, Google Research tarafından aşağıdaki makalede önerilmiştir "Bir Resim 16x16 K elimeye Bedeldir "e alternatif olarak standart Evrişimsel Sinir Ağı (CNN) görsel görevler için. Yerel filtreler kullanarak pikselleri işleyen CNN'lerin aksine, ViT'ler bir görüntüyü bir dizi olarak ele alır. sabit boyutlu yamalar, ilk katmandan itibaren küresel bağlamı ve uzun menzilli bağımlılıkları yakalamalarını sağlar kendi dikkatini kullanarak.
Bir ViT'nin mimarisi, makinelerin görsel bilgileri işleme biçiminde önemli bir değişimi temsil eder. İş akışı bir görüntüyü cümledeki kelimelere benzer şekilde işlenebilecek daha küçük bileşenlere ayırmayı içerir.
Her iki mimari de modern mimarinin temelini oluştursa da bilgisayarlı görü (CV), farklı tümevarımsal önyargılar. CNN'ler konvolüsyon işlemlerini kullanır yerel etkileşimlere ve öteleme değişmezliğine (bir nesneyi konumundan bağımsız olarak tanıma) öncelik verir. Bu CNN'leri daha küçük veri kümelerinde oldukça verimli hale getirir. Buna karşılık, ViT'ler daha az görüntüye özgü yapıya sahiptir ve gibi büyük veri kümelerinden doğrudan öğrenme modelleri ImageNet.
ViT'ler genellikle çok büyük miktarda veri üzerinde eğitildiklerinde, karmaşık küresel ilişkileri modelleyebildikleri için mükemmeldirler. CNN'ler kaçırabilir. Bununla birlikte, bu küresel kapsam genellikle aşağıdakiler için daha yüksek hesaplama gereksinimleri pahasına gelir kısıtlı kaynaklarda eğitim ve daha yavaş çıkarım hızları uç cihazlar. Hibrit modeller gibi RT-DETR bir CNN'i birleştirerek bu boşluğu doldurmaya çalışmaktadır. backbone ile verimli özellik çıkarımı için Küresel bağlam için transformatör kodlayıcı.
Görüntü Dönüştürücüler, bir sahnenin bütünsel bağlamını anlamanın daha kritik olduğu alanlarda başarıya ulaşmıştır düşük seviyeli doku detaylarından daha fazla.
Bu ultralytics paketi RT-DETR (Gerçek Zamanlı Algılama) gibi Transformatör tabanlı mimarileri destekler.
Transformatör) için ViT'lerin güçlü yönlerinden yararlanan
nesne algılama. CNN tabanlı modeller gibi
tavsiye edilir YOLO11 gerçek zaman için genellikle daha hızlıdır
uygulamalarında, RT-DETR yüksek doğruluk ve küresel bağlam öncelikli olduğunda sağlam bir alternatif sunar.
from ultralytics import RTDETR
# Load a pretrained RT-DETR model (Transformer-based architecture)
model = RTDETR("rtdetr-l.pt")
# Perform inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results with bounding boxes
results[0].show()
İleriye baktığımızda, verimlilik alanındaki yenilikler çok önemlidir. Ultralytics şu anda geliştiriyor YOLO26, yüksek doğruluk oranına ulaşmayı hedefliyor Transformers ile CNN'lerin hızını korurken. Ayrıca, yaklaşan Ultralytics Platformu, eğitim ve dağıtım için iş akışını kolaylaştıracak Bu gelişmiş modeller, bulut sunucularından uç donanımlara kadar çeşitli ortamlarda kullanılabilir. Gibi büyük çerçeveler PyTorch ve TensorFlow genişletmeye devam ediyor ViT varyantları için destek sağlayarak bu alanda daha fazla araştırma yapılmasını teşvik etmektedir.

.webp)