Transformer mimarilerinin, NLP, bilgisayarla görme ve gelişmiş ML görevlerindeki atılımlara güç vererek AI'da nasıl devrim yarattığını keşfedin.
Transformatör, işlemek için kendi kendine dikkat mekanizmasını kullanan çığır açan bir sinir ağı mimarisidir. giriş verilerini paralel hale getirerek aşağıdaki alanlarda önemli bir devrim yaratır Doğal Dil İşleme (NLP) ve Bilgisayarlı Görme (CV). İlk olarak tarafından tanıtıldı Google araştırmacıları 2017 yılında yayınladıkları ufuk açıcı makalede "Attention Is All You Need", Transformer'ın eski mimariler tarafından kullanılan sıralı işleme. Bunun yerine, tüm veri dizilerini aynı anda analiz eder, uzun menzilli bağımlılıkları ve bağlamsal ilişkileri benzeri görülmemiş bir verimlilikle yakalamasına olanak tanır. Bu mimarisi modern mimarinin temelini oluşturmaktadır. Üretken yapay zeka ve güçlü GPT-4 gibi Büyük Dil Modelleri (LLM'ler).
Bir Transformatörün tanımlayıcı özelliği, aşağıdaki özelliklere dayanmasıdır dikkat mekanizması, özellikle kendine dikkat. Aksine Tekrarlayan Sinir Ağları (RNN'ler), Verileri adım adım (örneğin kelime kelime) işleyen Dönüştürücüler, tüm girdiyi bir kerede alır. Anlamak için verilerin sıralanması için korumak için girdi gömülerine eklenen konumsal kodlamalar sekans yapısı hakkında bilgi.
Mimari tipik olarak kodlayıcı ve kod çözücü yığınlarından oluşur:
Bu paralel yapı, büyük ölçeklenebilirlik sağlayarak araştırmacıların yüksek performans kullanarak geniş veri kümeleri üzerinde modelleri eğitmek GPU'lar.
Başlangıçta metin için tasarlanmış olsa da, mimari görsel görevler için başarılı bir şekilde uyarlanmıştır. Görüntü Dönüştürücüsü (ViT). Bu yaklaşımda, bir görüntü sabit boyutlu yamalar dizisine bölünür (bir cümledeki kelimelere benzer). Model daha sonra şunları kullanır farklı konuların önemini tartmak için öz dikkat Birbirlerine göre yamalar, geleneksel olarak küresel bağlamı yakalar Evrişimsel Sinir Ağları (CNN'ler) kaçırabilir.
Örneğin Gerçek Zamanlı Algılama Transformatörü (RT-DETR) bunu kullanır yüksek doğrulukta gerçekleştirmek için mimari nesne tespiti. CNN tabanlı modellerin aksine Yerel özelliklere dayanan RT-DETR , bir sahnedeki uzak nesneler arasındaki ilişkiyi anlayabilir. Ancak, bu Transformers küresel bağlamda üstünlük sağlarken, CNN tabanlı modellerin Ultralytics YOLO11 genellikle daha iyi bir hız dengesi sağlar ve gerçek zamanlı uç uygulamalar için doğruluk. Aşağıdaki gibi topluluk modelleri YOLO12, yoğun dikkat katmanlarını entegre etmeye çalıştı ancak optimize edilmiş CNN mimarisine kıyasla sıklıkla eğitim kararsızlığı ve yavaş çıkarım hızlarından muzdariptir YOLO11'in.
Transformatör mimarisinin çok yönlülüğü, çeşitli sektörlerde benimsenmesine yol açmıştır.
Transformer tabanlı bilgisayarla görme modellerini doğrudan ultralytics paketi.
Aşağıdaki örnek, nesne algılama için RT-DETR modelinin nasıl yükleneceğini göstermektedir.
from ultralytics import RTDETR
# Load a pretrained RT-DETR model (Transformer-based)
model = RTDETR("rtdetr-l.pt")
# Perform inference on an image to detect objects using global attention
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
Transformatörleri diğer yaygın transformatörlerden ayırmak önemlidir. derin öğrenme (DL) mimarileri:
Araştırmalar, Transformatörlerin verimliliğini sürekli olarak geliştirmektedir. Gibi yenilikler FlashAttention hesaplama maliyetini düşürüyor, daha uzun bağlam pencerelerine izin verir. Ayrıca, multimodal yapay zeka sistemleri Transformers ile metin, görüntü ve sesi aynı anda işlemek için diğer mimariler. Bu teknolojiler olgunlaştıkça, yaklaşan Ultralytics Platformu, eğitmek, dağıtmak için birleşik bir ortam sağlayacaktır, ve bu sofistike modelleri standart modellerle birlikte izlemek bilgisayarla görme görevleri.

.webp)