YOLO26 ile tanış: yeni nesil görsel AI.
Ultralytics
Ultralytics Sözlüğüne dön

Vision Transformer (ViT)

Vision Transformer'ların (ViT) gücünü keşfet. Öz-ilgi (self-attention) ve yama belirteçleştirmenin (patch tokenization) Ultralytics ile CNN'lerin ötesinde bilgisayarlı görüyü nasıl dönüştürdüğünü öğren.

A Vision Transformer (ViT) is a deep learning architecture that adapts the self-attention mechanisms originally designed for Natural Language Processing (NLP) to solve visual tasks. Unlike a traditional Convolutional Neural Network (CNN), which processes images through a hierarchy of local pixel grids, a ViT treats an image as a sequence of discrete patches. This approach was popularized by the landmark research paper "An Image is Worth 16x16 Words", which demonstrated that pure transformer architectures could achieve state-of-the-art performance in computer vision (CV) without relying on convolution layers. By leveraging global attention, ViTs can capture long-range dependencies across an entire image from the very first layer.

Link to this sectionVision Transformer'lar Nasıl Çalışır?#

ViT'nin temel yeniliği, girdi verilerini yapılandırma biçimidir. Bir görüntüyü standart bir Transformer ile uyumlu hale getirmek için model, görsel bilgiyi bir dil modelinin kelime dizisini işlemesine benzer şekilde bir vektör dizisine dönüştürür.

  1. Yama Tokenleştirme: Girdi görüntüsü, genellikle 16x16 piksel boyutunda sabit karelerden oluşan bir ızgaraya bölünür. Her kare düzleştirilerek bir vektör haline getirilir ve etkili bir şekilde görsel bir token olur.

  2. Lineer Projeksiyon: Bu düzleştirilmiş yamalar, yoğun gömülmeler oluşturmak için eğitilebilir bir lineer katmandan geçirilir. Bu adım, ham piksel değerlerini modelin işleyebileceği yüksek boyutlu bir uzaya eşler.

  3. Konumsal Kodlama: Mimari dizileri paralel olarak işlediği ve doğal bir sıra veya uzay anlayışından yoksun olduğu için, yama gömülmelerine öğrenilebilir konumsal kodlamalar eklenir. Bu, modelin her bir yamanın orijinal görüntüde nereye ait olduğuna dair mekansal bilgiyi korumasını sağlar.

  4. Öz-Dikkat Mekanizması: Dizi, öz-dikkat mekanizmasının her yamanın diğer tüm yamalarla aynı anda etkileşime girmesine izin verdiği Transformer kodlayıcısına girer. Bu, ağın küresel bağlamı öğrenmesini sağlayarak sol üst köşedeki bir pikselin sağ alt köşedeki bir pikselle nasıl ilişkili olduğunu anlamasına olanak tanır.

  5. Sınıflandırma Başlığı: Görüntü sınıflandırma gibi görevler için, diziye genellikle özel bir "sınıf token'ı" eklenir. Bu token'ın nihai çıktı durumu, görüntünün toplu temsili olarak işlev görür ve ardından çok katmanlı algılayıcı (MLP) gibi bir sınıflandırıcıya aktarılır.

Link to this sectionVision Transformer'lar ve CNN'ler#

Her iki mimari de görsel veriyi anlamayı amaçlasa da, operasyonel felsefeleri bakımından önemli ölçüde farklılık gösterirler. CNN'ler, çeviri değişmezliği olarak bilinen güçlü bir "tümevarımsal önyargıya" sahiptir; bu, yerel özelliklerin (kenarlar ve dokular gibi) konumlarından bağımsız olarak önemli olduğunu varsaydıkları anlamına gelir. Bu, CNN'leri oldukça veri verimli kılar ve daha küçük veri setlerinde etkili hale getirir.

Conversely, Vision Transformers have less image-specific bias. They must learn spatial relationships from scratch using massive amounts of training data, such as the JFT-300M or full ImageNet datasets. While this makes training more computationally intensive, it allows ViTs to scale remarkably well; with sufficient data and compute power, they can outperform CNNs by capturing complex global structures that local convolutions might miss.

Link to this sectionGerçek Dünya Uygulamaları#

Küresel bağlamı anlama yeteneği, ViT'leri özellikle karmaşık ve yüksek riskli ortamlar için yararlı kılar.

  • Tıbbi Görüntü Analizi: Sağlık AI alanında ViT'ler, MRI veya histopatoloji slaytları gibi yüksek çözünürlüklü taramaları analiz etmek için kullanılır. Örneğin, tümör tespiti işlemlerinde bir ViT, dokudaki ince dokusal anormallikleri slayt genelindeki daha geniş yapısal değişikliklerle ilişkilendirerek yerel işlemlerin gözden kaçırabileceği kötü huylu kalıpları tanımlayabilir.
  • Uydu Görüntüleri ve Uzaktan Algılama: ViT'ler, nesneler arasındaki ilişkilerin geniş mesafelere yayıldığı uydu görüntü analizi çalışmalarında mükemmel sonuçlar verir. Örneğin, bir ormansızlaşma alanını uzak bir tomruk yoluna bağlamak, manzaranın "büyük resmini" anlamayı gerektirir; bu, ViT'nin küresel dikkat mekanizmasının standart CNN'lerin sınırlı alıcı alanından daha üstün olduğu bir görevdir.

Link to this sectionUltralytics ile Transformer'ları Kullanma#

ultralytics kütüphanesi, en önemlisi RT-DETR (Gerçek Zamanlı Tespit Transformer'ı) olmak üzere Transformer tabanlı mimarileri destekler. Amiral gemisi YOLO26 genellikle uç cihazlardaki hız ve doğruluk dengesi nedeniyle tercih edilse de, RT-DETR küresel bağlama öncelik veren senaryolar için güçlü bir alternatif sunar.

Aşağıdaki Python örneği, önceden eğitilmiş Transformer tabanlı bir modelin nasıl yükleneceğini ve çıkarımın (inference) nasıl yapılacağını göstermektedir:

from ultralytics import RTDETR

# Load a pre-trained RT-DETR model (Vision Transformer-based)
model = RTDETR("rtdetr-l.pt")

# Run inference on an image source
# The model uses self-attention to detect objects globally
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results
results[0].show()

Link to this sectionGelecek Görünümü#

Araştırmalar, ViT'lerin yüksek hesaplama maliyetini ele almak için hızla gelişiyor. FlashAttention gibi teknikler, bu modelleri daha hızlı ve daha bellek verimli hale getiriyor. Ayrıca, CNN'lerin verimliliğini Transformer'ların dikkat yeteneğiyle birleştiren hibrit mimariler giderek yaygınlaşıyor. Bu gelişmiş iş akışlarını yönetmek isteyen ekipler için Ultralytics Platform, verileri etiketlemek, bulut üzerinden karmaşık modeller eğitmek ve bunları çeşitli uç noktalara dağıtmak için birleşik bir ortam sunar.

Explore solutions

Real-time AI that works with your team

Robotikte AI

Daha akıllı makineleri Ultralytics YOLO modelleriyle destekle. Robotikteki Vision AI; otonom navigasyonu, algılamayı, nesne takibini ve gerçek zamanlı kontrolü yönlendirir.
Daha fazla bilgi edin
Real-time AI that works with your team

Lojistikte Yapay Zeka

Ultralytics YOLO modelleri ile lojistiği kolaylaştır. Görü Yapay Zekası; paket inceleme, ayıklama, araç takibi ve gerçek zamanlı depo güvenliği izlemeyi mümkün kılar.
Daha fazla bilgi edin
Real-time AI that works with your team

Perakendede AI

Perakendeyi Ultralytics YOLO modelleri ile yeniden hayal et. Görü Yapay Zekası; envanter takibi, raf izleme, sıra yönetimi ve daha akıllı müşteri içgörüleri sağlar.
Daha fazla bilgi edin
Real-time AI that works with your team

Sağlıkta Yapay Zeka

Ultralytics YOLO modelleriyle sağlık çözümleri oluştur. Sağlıkta görüntü tabanlı yapay zeka; daha hızlı tıbbi görüntülemeyi, daha akıllı teşhisleri ve hasta izlemeyi güçlendirir.
Daha fazla bilgi edin
Real-time AI that works with your team

Üretimde Yapay Zeka

Ultralytics YOLO modelleri ile üretimi optimize et. Görü Yapay Zekası; kalite kontrol, kusur tespiti, KKD uyumu ve montaj hattı otomasyonunu yönlendirir.
Daha fazla bilgi edin
Real-time AI that works with your operation

Otomotivde yapay zeka

Ultralytics YOLO modelleriyle otomotivde bilgisayarlı görü uygula. Görüntü tabanlı yapay zeka; yol güvenliğini, sürücü yardımını ve araç otomasyonunu daha akıllı yollar için geliştirir.
Daha fazla bilgi edin
Real-time AI tailored to your operation

Tarımda yapay zeka

Ultralytics YOLO modelleriyle akıllı tarıma görüntü tabanlı yapay zeka getir. Daha yüksek ve akıllı verimler için mahsul takibini, hayvancılık izlemeyi ve hassas tarımı güçlendir.
Daha fazla bilgi edin
Real-time AI that works with your team

Robotikte AI

Daha akıllı makineleri Ultralytics YOLO modelleriyle destekle. Robotikteki Vision AI; otonom navigasyonu, algılamayı, nesne takibini ve gerçek zamanlı kontrolü yönlendirir.
Daha fazla bilgi edin
Real-time AI that works with your team

Lojistikte Yapay Zeka

Ultralytics YOLO modelleri ile lojistiği kolaylaştır. Görü Yapay Zekası; paket inceleme, ayıklama, araç takibi ve gerçek zamanlı depo güvenliği izlemeyi mümkün kılar.
Daha fazla bilgi edin
Real-time AI that works with your team

Perakendede AI

Perakendeyi Ultralytics YOLO modelleri ile yeniden hayal et. Görü Yapay Zekası; envanter takibi, raf izleme, sıra yönetimi ve daha akıllı müşteri içgörüleri sağlar.
Daha fazla bilgi edin
Real-time AI that works with your team

Sağlıkta Yapay Zeka

Ultralytics YOLO modelleriyle sağlık çözümleri oluştur. Sağlıkta görüntü tabanlı yapay zeka; daha hızlı tıbbi görüntülemeyi, daha akıllı teşhisleri ve hasta izlemeyi güçlendirir.
Daha fazla bilgi edin
Real-time AI that works with your team

Üretimde Yapay Zeka

Ultralytics YOLO modelleri ile üretimi optimize et. Görü Yapay Zekası; kalite kontrol, kusur tespiti, KKD uyumu ve montaj hattı otomasyonunu yönlendirir.
Daha fazla bilgi edin
Real-time AI that works with your operation

Otomotivde yapay zeka

Ultralytics YOLO modelleriyle otomotivde bilgisayarlı görü uygula. Görüntü tabanlı yapay zeka; yol güvenliğini, sürücü yardımını ve araç otomasyonunu daha akıllı yollar için geliştirir.
Daha fazla bilgi edin
Real-time AI tailored to your operation

Tarımda yapay zeka

Ultralytics YOLO modelleriyle akıllı tarıma görüntü tabanlı yapay zeka getir. Daha yüksek ve akıllı verimler için mahsul takibini, hayvancılık izlemeyi ve hassas tarımı güçlendir.
Daha fazla bilgi edin
Real-time AI that works with your team

Robotikte AI

Daha akıllı makineleri Ultralytics YOLO modelleriyle destekle. Robotikteki Vision AI; otonom navigasyonu, algılamayı, nesne takibini ve gerçek zamanlı kontrolü yönlendirir.
Daha fazla bilgi edin
Real-time AI that works with your team

Lojistikte Yapay Zeka

Ultralytics YOLO modelleri ile lojistiği kolaylaştır. Görü Yapay Zekası; paket inceleme, ayıklama, araç takibi ve gerçek zamanlı depo güvenliği izlemeyi mümkün kılar.
Daha fazla bilgi edin
Real-time AI that works with your team

Perakendede AI

Perakendeyi Ultralytics YOLO modelleri ile yeniden hayal et. Görü Yapay Zekası; envanter takibi, raf izleme, sıra yönetimi ve daha akıllı müşteri içgörüleri sağlar.
Daha fazla bilgi edin
Real-time AI that works with your team

Sağlıkta Yapay Zeka

Ultralytics YOLO modelleriyle sağlık çözümleri oluştur. Sağlıkta görüntü tabanlı yapay zeka; daha hızlı tıbbi görüntülemeyi, daha akıllı teşhisleri ve hasta izlemeyi güçlendirir.
Daha fazla bilgi edin
Real-time AI that works with your team

Üretimde Yapay Zeka

Ultralytics YOLO modelleri ile üretimi optimize et. Görü Yapay Zekası; kalite kontrol, kusur tespiti, KKD uyumu ve montaj hattı otomasyonunu yönlendirir.
Daha fazla bilgi edin
Real-time AI that works with your operation

Otomotivde yapay zeka

Ultralytics YOLO modelleriyle otomotivde bilgisayarlı görü uygula. Görüntü tabanlı yapay zeka; yol güvenliğini, sürücü yardımını ve araç otomasyonunu daha akıllı yollar için geliştirir.
Daha fazla bilgi edin
Real-time AI tailored to your operation

Tarımda yapay zeka

Ultralytics YOLO modelleriyle akıllı tarıma görüntü tabanlı yapay zeka getir. Daha yüksek ve akıllı verimler için mahsul takibini, hayvancılık izlemeyi ve hassas tarımı güçlendir.
Daha fazla bilgi edin

Yapay zekanın geleceğini birlikte inşa edelim!

Yolculuğuna makine öğreniminin geleceğiyle başla