YOLO Vision 2025'i kaçırmayın!
25 Eylül 2025
10:00 — 18:00 BST
Hibrit etkinlik
Yolo Vision 2024
Sözlük

Transformer

Transformer mimarilerinin, NLP, bilgisayarla görme ve gelişmiş ML görevlerindeki atılımlara güç vererek AI'da nasıl devrim yarattığını keşfedin.

Bir Transformer, özellikle Yapay Zeka'da (AI), özellikle Doğal Dil İşleme'de (NLP) ve daha yakın zamanda Bilgisayarlı Görü'de (CV) modern Yapay Zeka'nın (AI) temel taşı haline gelen devrim niteliğinde bir sinir ağı mimarisidir. Google araştırmacıları tarafından 2017'de "Attention Is All You Need" makalesinde tanıtılan temel yeniliği, modelin bir girdi dizisindeki farklı kelimelerin veya parçaların önemini tartmasına olanak tanıyan öz-dikkat mekanizmasıdır. Bu, uzun menzilli bağımlılıkları ve bağlamsal ilişkileri önceki mimarilerden daha etkili bir şekilde yakalamasını sağlar. Tasarım ayrıca büyük paralelleştirmeye izin vererek, büyük veri kümelerinde çok daha büyük modelleri eğitmeyi mümkün kılar ve bu da Büyük Dil Modellerinin (LLM'ler) yükselişine yol açar.

Transformatörler Nasıl Çalışır

Tekrarlayan Sinir Ağları (RNN'ler) gibi sıralı modellerin aksine, Transformer'lar tüm veri dizilerini aynı anda işler. Temel fikir, modern GPU'lar gibi donanımlarda eğitimi önemli ölçüde hızlandıran tüm öğeleri paralel olarak işlemektir.

Tekrarlama olmadan sıra düzenini anlamak için Transformer'lar, her bir öğenin (örneğin, bir cümledeki bir kelime) gömülmesine konum bilgisi ekleyen, konumsal kodlama adı verilen bir teknik kullanır. Kendi kendine dikkat katmanları daha sonra bu gömmeleri işler ve her bir öğenin dizideki diğer her bir öğeye "bakmasına" ve anlamını anlamak için hangilerinin en alakalı olduğunu belirlemesine olanak tanır. Bu küresel bağlam farkındalığı, karmaşık görevler için büyük bir avantajdır. PyTorch ve TensorFlow gibi çerçeveler, Transformer tabanlı modeller oluşturmak için kapsamlı destek sağlar.

Transformer'ların Uygulamaları

Transformer'ların etkisi, hem dil hem de görüntü görevlerinde ilerlemeyi sağlayarak çok sayıda alana yayılmıştır.

  1. Dil Çevirisi ve Üretimi: Google Translate gibi hizmetler, yüksek kaliteli makine çevirisi için Transformer tabanlı modeller kullanır. Model, daha akıcı ve doğru bir çeviri üretmek için tüm kaynak cümleyi dikkate alabilir. Benzer şekilde, GPT-4 gibi modeller, tutarlı paragraflar oluşturmak, makaleler yazmak veya gelişmiş sohbet robotlarına güç vermek için bağlamı anlayarak metin oluşturma konusunda mükemmeldir.
  2. Bilgisayarla Görü: Vision Transformer (ViT), mimariyi görüntü tabanlı görevlere uyarlar. Bir görüntüyü bir dizi parça olarak ele alır ve bunlar arasındaki ilişkileri modellemek için self-attention (öz-dikkat) kullanır. Bu yaklaşım, bir sahnenin genel bağlamını anlamanın özellikle karmaşık ortamlarda nesneleri daha doğru bir şekilde tanımlamaya yardımcı olabileceği nesne tespiti için RT-DETR gibi modellerde kullanılır. Mimari farklılıklarını anlamak için RT-DETR ve YOLOv8 karşılaştırmasına bakabilirsiniz.

Transformer ve Diğer Mimariler

Transformatörleri (Transformers) diğer yaygın sinir ağı mimarilerinden ayırmak faydalıdır:

  • Transformer'lar ve RNN'ler: RNN'ler verileri sıralı olarak işler, bu da onları doğal olarak yavaşlatır ve kaybolan gradyan sorununa karşı hassas hale getirir ve uzun dizilerdeki önceki bilgileri unutmalarına neden olur. Transformer'lar bunu paralel işleme ve self-attention ile aşar ve uzun menzilli bağımlılıkları çok daha etkili bir şekilde yakalar.
  • Transformer'lar ve CNN'ler: Evrişimsel Sinir Ağları (CNN'ler), pikseller gibi ızgara benzeri verilerdeki yerel kalıpları tanımlamak için evrişimsel filtreler kullanarak vizyon görevleri için oldukça verimlidir. Ultralytics YOLO ailesi gibi modellerin temelini oluştururlar. Buna karşılık, Transformer'lar küresel ilişkileri yakalar, ancak genellikle daha fazla veri ve işlem kaynağı gerektirir. Bir CNN omurgasını Transformer katmanlarıyla birleştiren hibrit modeller, her iki dünyanın da en iyisini elde etmeyi amaçlar.

Verimli Transformer Çeşitleri

Orijinal Transformer'ın tam dikkat mekanizmasının (self-attention) hesaplama maliyeti, dizi uzunluğu ile karesel olarak büyür ve bu da çok uzun diziler için zorlu hale getirir. Bu, daha verimli varyantların geliştirilmesine yol açmıştır.

  • Longformer: Hesaplama karmaşıklığını azaltmak için belirli belirteçlerdeki genel dikkatle birlikte kayan bir pencere dikkat mekanizması kullanır.
  • Reformer: Tam dikkati yaklaşık olarak hesaplamak için locality-sensitive hashing gibi teknikler kullanır, bu da onu daha bellek verimli hale getirir.
  • Transformer-XL: Modelin sabit bir uzunluğun ötesindeki bağımlılıkları öğrenmesini sağlayan bir yineleme mekanizması sunar; bu, özellikle otomatik regresif dil modellemesi için kullanışlıdır.

Bu gelişmeler, Transformer'ların yeni sorunlara uygulanabilirliğini genişletmeye devam ediyor. Hugging Face ve Ultralytics HUB gibi araçlar ve platformlar, geliştiricilerin bu güçlü modellere erişmesini ve bunları dağıtmasını kolaylaştırır.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın
Bağlantı panoya kopyalandı