Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

Transformer-XL

Transformer-XL'in segment yineleme ve uzun menzilli bağlam işleme gibi yeniliklerle sekans modellemede nasıl devrim yarattığını keşfedin.

Transformer-XL veya "Transformer-Extra Long" sofistike bir üründür ele almak için tasarlanmış sinir ağı mimarisi en kalıcı zorluklardan biri olan yapay zeka (AI): işleme sabit bir uzunluğu aşan veri dizileri. Araştırmacılar tarafından geliştirilen Google AI ve Carnegie Mellon Üniversitesi, bu mimarisi orijinal Transformer 'ı şu şekilde geliştirir yeni bir tekrarlama mekanizması getirmiştir. Bu yenilik, modelin farklı ülkelerdeki bilgileri muhafaza etmesini sağlar. veri segmentleri, etkinliğini önemli ölçüde artırıyor bağlam penceresi olmadan büyük hesaplama Genellikle uzun girdilerin işlenmesiyle ilişkili ek yük.

Sekans Modellemesinin Geliştirilmesi

Transformer-XL'in önemini anlamak için öncüllerinin sınırlamalarına bakmak yardımcı olacaktır. Standart Dönüştürücüler verileri sabit boyutlu parçalar (segmentler) halinde bağımsız olarak işler. Bu da "bağlam parçalanma," model bir segment diğerine geçer geçmez bilgiyi unutur. Transformer-XL bunun üstesinden segment yineleme kavramını kullanarak gelir. Tekrarlayan Sinir Ağları (RNN'ler) ancak Transformers'ın paralelleştirilebilir çerçevesi içinde uygulanmıştır.

Mimari iki ana teknik katkıya dayanmaktadır:

  • Segment Düzeyinde Yineleme: Model, bir önceki segment gizli durumlarını (hafıza) önbelleğe alır ve bunları mevcut segment için genişletilmiş bir bağlam olarak yeniden kullanır. Bu sayede bilgi sürekli olarak derin öğrenme katmanları, modelin Standart Transformatörlerden yüzlerce kat daha uzun model bağımlılıkları.
  • Göreceli Konumsal Kodlamalar: Standart modellerde, belirteçlere mutlak koordinatlar atanır (örn, pozisyon 1, pozisyon 2). Ancak, bellek segmentlerini yeniden kullanırken, mutlak konumlandırma karışıklık yaratır (ilk yeni segment belirteci eski segment ilk belirteciyle aynı görünecektir). Transformer-XL bunu şu şekilde çözer içindeki belirteçler arasındaki göreli mesafeyi kodlar. dikkat mekanizması, modelin segment sınırlarından bağımsız olarak sıra düzenini anlar.

Gerçek Dünya Uygulamaları

Uzun süreli hafızayı koruma yeteneği, Transformer-XL'yi kapsamlı bağlam gerektiren görevler için oldukça değerli kılar.

  • Uzun Formlu Metin Üretimi: İçinde doğal dil işleme (NLP), anlatı tutarlılığını korumak zordur. Transformer-XL şu konularda üstündür yaratıcı yazma için metin oluşturma, örneğin Modelin ilk bölümde tanıtılan bir karakteri hatırlaması gereken romanlar veya senaryolar üreterek Onuncu bölümdeki mantıksal kararlar.
  • Finansal Zaman Serisi Analizi: Finansal piyasalar uzun veri dizileri olarak işlev görür. Aylar öncesinin tarihsel eğilimleri mevcut fiyatları etkilemektedir. Transformer-XL şu alanlarda kullanılır zaman serisi analizi ve Stok tahmini için öngörücü modelleme hareketleri, fiyat geçmişindeki uzun vadeli bağımlılıkları analiz ederek, sadece kısa günlük verilere bakan modellerden daha iyi performans gösterir. Pencereler.
  • Genomik Dizi Analizi: Biyoinformatikte, DNA iplikleri etkili bir şekilde son derece uzun dizilerdir karakterler. Araştırmacılar Transformer-XL gibi mimarileri gen dizilerini analiz etmek için kullanıyor örüntü tanıma ve anomali tespiti, tıbbi araştırma ve ilaç keşfine yardımcı olmak.

Uygulama Konsepti

Ultralytics öncelikle aşağıdakilere odaklanırken gibi modellerle bilgisayarla görme (CV) YOLO11'nin önbellekleme mekanizmasını anlamak Transformer-XL, gelişmiş makine öğrenimi mühendisliği için kullanışlıdır. Aşağıdakiler PyTorch kod parçacığı, bir Bağlamı korumak için ileri geçiş sırasında "bellek" tensor .

import torch


def forward_pass_with_memory(input_segment, memory=None):
    """Conceptual demonstration of passing memory (cached states) simulating the Transformer-XL recurrence mechanism.
    """
    # If memory exists from the previous segment, concatenate it
    if memory is not None:
        # Combine memory with current input along the sequence dimension
        context = torch.cat([memory, input_segment], dim=1)
    else:
        context = input_segment

    # Simulation of processing (in a real model, this goes through layers)
    output = context * 0.5  # Dummy operation

    # Detach current output to create memory for the NEXT segment
    # This prevents gradient backpropagation into the deep history
    new_memory = output.detach()

    return output, new_memory


# Run a dummy example
segment1 = torch.randn(1, 10)  # Batch size 1, sequence length 10
output1, mems = forward_pass_with_memory(segment1)
print(f"Memory cached shape: {mems.shape}")

Transformer-XL ve İlgili Mimariler

Transformer-XL'yi benzer terimlerden ayırmak, özel kullanım durumunu netleştirmeye yardımcı olur:

  • vs. Standart Transformatör: Standart Transformatör Standart model her segment sonra durumunu sıfırlar ve "hafızasını" segment uzunluğu ile sınırlar (örn, 512 belirteç). Transformer-XL hafızayı ileriye taşır ve teorik olarak sonsuz bir geriye bakış bağlamına izin verir, sadece bellek kaynakları ile sınırlıdır.
  • vs. BERT BERT aşağıdakiler için tasarlanmıştır doğal dil anlama (NLU) Çift yönlü dikkat kullanarak (geçmiş ve gelecek kelimelere aynı anda bakarak) ancak üretim için uygun değildir. Transformer-XL otoregresif bir modeldir, yani verileri sıralı olarak üretir, bu da onu oluşturmak için daha iyi hale getirir İçerik.
  • Longformer'a karşı: Longformer adresleri seyrek bir dikkat modeli kullanarak (bir seferde yalnızca birkaç kelimeye bakarak) uzun diziler maliyet. Buna karşılık, Transformer-XL yineleme kullanır. Longformer genellikle büyük bir belgeyi bir kerede okumak için daha iyidir bir kez, Transformer-XL ise veri akışı veya adım adım uzun diziler oluşturmak için üstündür.

Sıralı verilerle çalışan araştırmacılar ve geliştiriciler için Transformer-XL araştırma makalesi, verimli transformatörler hakkında daha derin bilgi sağlar bellek yönetimi büyük dil modelleri (LLM'ler). Verimli bellek kullanımı, görüntü modellerinin uç cihazlara dağıtım için optimize edilmesinde de geçerli olan bir ilkedir. GPU'lar.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın