Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

Transformer

Transformer mimarilerinin, NLP, bilgisayarla görme ve gelişmiş ML görevlerindeki atılımlara güç vererek AI'da nasıl devrim yarattığını keşfedin.

Transformatör, işlemek için kendi kendine dikkat mekanizmasını kullanan çığır açan bir sinir ağı mimarisidir. giriş verilerini paralel hale getirerek aşağıdaki alanlarda önemli bir devrim yaratır Doğal Dil İşleme (NLP) ve Bilgisayarlı Görme (CV). İlk olarak tarafından tanıtıldı Google araştırmacıları 2017 yılında yayınladıkları ufuk açıcı makalede "Attention Is All You Need", Transformer'ın eski mimariler tarafından kullanılan sıralı işleme. Bunun yerine, tüm veri dizilerini aynı anda analiz eder, uzun menzilli bağımlılıkları ve bağlamsal ilişkileri benzeri görülmemiş bir verimlilikle yakalamasına olanak tanır. Bu mimarisi modern mimarinin temelini oluşturmaktadır. Üretken yapay zeka ve güçlü GPT-4 gibi Büyük Dil Modelleri (LLM'ler).

Çekirdek Mimari ve Mekanizma

Bir Transformatörün tanımlayıcı özelliği, aşağıdaki özelliklere dayanmasıdır dikkat mekanizması, özellikle kendine dikkat. Aksine Tekrarlayan Sinir Ağları (RNN'ler), Verileri adım adım (örneğin kelime kelime) işleyen Dönüştürücüler, tüm girdiyi bir kerede alır. Anlamak için verilerin sıralanması için korumak için girdi gömülerine eklenen konumsal kodlamalar sekans yapısı hakkında bilgi.

Mimari tipik olarak kodlayıcı ve kod çözücü yığınlarından oluşur:

  • Kodlayıcı: Bağlamsal bir anlayış oluşturmak için girdi verilerini işler.
  • Kod Çözücü: Çevrilmiş metin veya tahmin edilen metin gibi çıktılar üretmek için kodlayıcının içgörülerini kullanır. görüntü pikselleri.

Bu paralel yapı, büyük ölçeklenebilirlik sağlayarak araştırmacıların yüksek performans kullanarak geniş veri kümeleri üzerinde modelleri eğitmek GPU'lar.

Bilgisayarlı Görüde Transformatörler

Başlangıçta metin için tasarlanmış olsa da, mimari görsel görevler için başarılı bir şekilde uyarlanmıştır. Görüntü Dönüştürücüsü (ViT). Bu yaklaşımda, bir görüntü sabit boyutlu yamalar dizisine bölünür (bir cümledeki kelimelere benzer). Model daha sonra şunları kullanır farklı konuların önemini tartmak için öz dikkat Birbirlerine göre yamalar, geleneksel olarak küresel bağlamı yakalar Evrişimsel Sinir Ağları (CNN'ler) kaçırabilir.

Örneğin Gerçek Zamanlı Algılama Transformatörü (RT-DETR) bunu kullanır yüksek doğrulukta gerçekleştirmek için mimari nesne tespiti. CNN tabanlı modellerin aksine Yerel özelliklere dayanan RT-DETR , bir sahnedeki uzak nesneler arasındaki ilişkiyi anlayabilir. Ancak, bu Transformers küresel bağlamda üstünlük sağlarken, CNN tabanlı modellerin Ultralytics YOLO11 genellikle daha iyi bir hız dengesi sağlar ve gerçek zamanlı uç uygulamalar için doğruluk. Aşağıdaki gibi topluluk modelleri YOLO12, yoğun dikkat katmanlarını entegre etmeye çalıştı ancak optimize edilmiş CNN mimarisine kıyasla sıklıkla eğitim kararsızlığı ve yavaş çıkarım hızlarından muzdariptir YOLO11'in.

Gerçek Dünya Uygulamaları

Transformatör mimarisinin çok yönlülüğü, çeşitli sektörlerde benimsenmesine yol açmıştır.

  • Tıbbi Görüntü Analizi: Sağlık hizmetlerinde Transformatörler aşağıdakilere yardımcı olur korelasyon yoluyla tıbbi görüntü analizi tümörler gibi anomalileri detect etmek için yüksek çözünürlüklü taramalardaki (örneğin, MRI veya CT) özellikler. Anlama yetenekleri küresel bağlam, ince kalıpların gözden kaçırılmamasını sağlar.
  • Otonom Navigasyon: Kendi kendine giden otomobiller, Transformer tabanlı modelleri kullanarak birden fazla kamera. Bu yardımcı olur video anlama ve yörünge tahmini Dinamik nesnelerin (yayalar, diğer araçlar) zaman içinde nasıl etkileşime girdiğini izleyerek.
  • Gelişmiş Sohbet Robotları: Sanal asistanlar ve müşteri destek temsilcileri, Transformers'a güveniyor uzun konuşmalarda bağlam, eski sürümlere kıyasla kullanıcı deneyimini önemli ölçüde iyileştirir sohbet robotları.

Ultralytics ile Transformatör Kullanımı

Transformer tabanlı bilgisayarla görme modellerini doğrudan ultralytics paketi. Aşağıdaki örnek, nesne algılama için RT-DETR modelinin nasıl yükleneceğini göstermektedir.

from ultralytics import RTDETR

# Load a pretrained RT-DETR model (Transformer-based)
model = RTDETR("rtdetr-l.pt")

# Perform inference on an image to detect objects using global attention
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

Transformatörler ve Diğer Mimariler

Transformatörleri diğer yaygın transformatörlerden ayırmak önemlidir. derin öğrenme (DL) mimarileri:

  • Transformatörler vs. RNN'ler/LSTM'ler: RNN'ler şu sorunlardan muzdariptir kaybolan gradyan problemi, onlara uzun dizilerdeki erken bilgiler. Transformatörler bunu kendi kendine dikkat ederek çözer, tüm bilgiye erişimi sürdürür dizinin tarihi.
  • Dönüştürücüler ve CNN'ler: CNN'ler çeviriden bağımsızdır ve yerel örüntüleri tespit etmede mükemmeldir (kenarlar, dokular) kullanarak backboneBu da onları son derece görüntü görevleri için verimli. Dönüştürücüler küresel ilişkileri öğrenir ancak genellikle daha fazla veri ve hesaplama gücü gerektirir yakınsamak için. Modern yaklaşımlar genellikle hibrit modeller oluşturur veya aşağıdaki gibi verimli CNN'ler kullanır YOLO11 saf Transformatörlerden daha iyi performans gösteren ortamlar.

Geleceğe Bakış

Araştırmalar, Transformatörlerin verimliliğini sürekli olarak geliştirmektedir. Gibi yenilikler FlashAttention hesaplama maliyetini düşürüyor, daha uzun bağlam pencerelerine izin verir. Ayrıca, multimodal yapay zeka sistemleri Transformers ile metin, görüntü ve sesi aynı anda işlemek için diğer mimariler. Bu teknolojiler olgunlaştıkça, yaklaşan Ultralytics Platformu, eğitmek, dağıtmak için birleşik bir ortam sağlayacaktır, ve bu sofistike modelleri standart modellerle birlikte izlemek bilgisayarla görme görevleri.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın