Transformer-XL'nin segment tekrar kullanarak sabit bağlam sınırlarını nasıl aştığını keşfedin. Bu mimarinin uzun biçimli yapay zeka ve [LLM'leri](ultralytics) nasıl desteklediğini öğrenin.
Transformer-XL (Transformer-Extra Long), standart Transformer modellerindeki kritik bir sınırlamayı ele almak için tasarlanmış özel bir sinir ağı mimarisidir: sıralı verilerdeki uzun menzilli bağımlılıkları işleme yeteneği. Google araştırmacıları tarafından tanıtılan bu mimari, dil modellerinin BERT veya orijinal Transformer gibi geleneksel yaklaşımları kısıtlayan sabit uzunluktaki bağlam pencerelerinin çok ötesine bakmasını sağlar. segment bir yineleme mekanizması ve yeni bir konumsal kodlama şeması sunan Transformer-XL, track son derece uzun metin dizilerini işleyebilir ve bu da onu modern Büyük Dil Modelleri (LLM'ler) ve üretken AI uygulamaları için temel bir kavram haline getirir.
Transformer-XL'nin arkasındaki temel motivasyon "sabit bağlam sorunu"dur. Standart Transformer'lar verileri sabit boyutlu segmentler halinde işler (örneğin, 512 token). Bilgiler genellikle bu segmentler arasında akış göstermez, yani model önceki segment neler olduğunu unutur. Bu da uzun belgelerde tutarlılığı bozar.
Transformer-XL, iki önemli yenilikle bu sorunu çözüyor:
Bu mimari, RNN'ler ve standart Transformer'lar gibi öncüllerine kıyasla dil modelleme görevlerinde karmaşıklık puanlarını önemli ölçüde iyileştirir.
Transformer-XL'yi standart Vision Transformer (ViT) veya metin Transformers'tan ayırmak yararlıdır. Standart bir Transformer her segment sonra durumunu sıfırlar ve "bağlam parçalanmasına" neden olurken, Transformer-XL geçmiş etkinleştirmelerin belleğini korur. Bu, sabit bağlam modellerinden yüzlerce kat daha uzun bağımlılıkları modellemesine olanak tanır. Bu, bir sorunun cevabının sorgudan paragraflarca uzakta olabileceği derin doğal dil anlayışı (NLU) gerektiren görevler için özellikle önemlidir.
Uzun vadeli bağlamı koruma yeteneği, Transformer-XL'yi birçok yüksek etkili alanda değerli kılar:
Transformer-XL, uzun dizilerde üstün performans sunarken, belirli bellek hususlarını da beraberinde getirir. Gizli durumların önbelleğe alınması, ek GPU gerektirir ve bu da doğru yönetilmezse çıkarım gecikmesini etkileyebilir. Ancak, uzun bağlamlarda doğruluğun çok önemli olduğu uygulamalar için, bu ödün genellikle haklıdır.
YOLO26 gibi modern nesne algılama modelleri, görsel veriler için hız ve verimliliğe odaklanmaktadır. Buna karşılık, Transformer-XL gibi mimariler, sıralı veriler için bellek tutma özelliğine öncelik vermektedir. İlginç bir şekilde, bu alan verimli görme omurgaları (YOLO26'daki gibi) ile uzun bağlamlı dil kod çözücülerinin eşleştirilerek uzun videoları analiz etmek ve zaman içinde meydana gelen olaylar hakkında karmaşık soruları yanıtlamak için kullanılabileceği multimodal yapay zeka yönünde gelişmektedir.
Transformer-XL'nin iç mekanizması karmaşık olsa da, gelişmiş modellerin kullanılması genellikle bağlam sınırlarına uymak için girdilerin yönetilmesini gerektirir.
Aşağıdaki Python , torch Transformer-XL gibi mimarilerde görülen tekrarlayan davranışı simüle ederek, adımlar arasında bağlamı korumak için
"hafıza"yı (gizli durumlar) bir modele aktarma kavramını gösterir.
.
import torch
import torch.nn as nn
# Define a simple RNN to demonstrate passing hidden states (memory)
# This mimics the core concept of recurrence used in Transformer-XL
rnn = nn.RNN(input_size=10, hidden_size=20, num_layers=2, batch_first=True)
# Initial input: Batch size 1, sequence length 5, feature size 10
input_seq1 = torch.randn(1, 5, 10)
# Run first segment, receiving output and the hidden state (memory)
output1, memory = rnn(input_seq1)
# Run second segment, PASSING the memory from the previous step
# This connects the two segments, allowing context to flow
input_seq2 = torch.randn(1, 5, 10)
output2, new_memory = rnn(input_seq2, memory)
print(f"Output shape with context: {output2.shape}")
En son teknolojiye sahip modelleri verimli bir şekilde eğitmek ve dağıtmak isteyen ekipler için Ultralytics , görsel modellerle çalışıyor veya karmaşık sıralı mimarileri entegre ediyor olsanız da, veri kümelerini yönetmek ve model eğitim sürecini kolaylaştırmak için araçlar sağlar. .

