Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

Longformer

Uzun veri dizilerini verimli bir şekilde işlemek için Longformer mimarisini keşfedin. Seyrek dikkatin NLP ve Bilgisayar Görme için bellek sınırlarını nasıl aştığını öğrenin.

Longformer, geleneksel modellerin sınırlamalarını aşarak uzun veri dizilerini verimli bir şekilde işlemek için tasarlanmış özel bir derin öğrenme mimarisidir. Başlangıçta, bellek kısıtlamaları nedeniyle genellikle 512 token'dan uzun dizilerle zorlanan standart Transformer'ların kısıtlamalarını gidermek için tanıtılan Longformer, değiştirilmiş bir dikkat mekanizması kullanır. Hesaplama karmaşıklığını ikinci dereceden doğrusal hale getirerek, bu mimari AI sistemlerinin tüm belgeleri, uzun transkriptleri veya karmaşık genetik dizileri girişi kesmeden tek seferde analiz etmesini sağlar.

Dikkat Darboğazı Sorunu

Longformer'ın önemini anlamak için, BERT ve ilk GPT-3 modelleri gibi öncüllerinin sınırlamalarına bakmak gerekir. Standart dönüştürücüler, her bir token'ın (kelime veya kelimenin bir parçası) dizideki diğer tüm token'lara dikkat ettiği "kendi kendine dikkat" işlemini kullanır. Bu, ikinci dereceden bir hesaplama maliyeti yaratır; dizi uzunluğunun iki katına çıkması, sistemde gerekli belleği dört katına çıkarır. GPU. Sonuç olarak, çoğu standart model, giriş boyutuna katı bir sınır getirir ve genellikle veri bilimcilerini belgeleri daha küçük, bağlantısız segmentlere ayırmaya zorlar, bu da bağlam kaybına neden olur.

Longformer, Sparse Attention'ı tanıtarak bu sorunu çözüyor. Tamamen tümüyle bağlantı yerine, pencereli yerel dikkat ve küresel dikkatin bir kombinasyonunu kullanıyor:

  • Kayan Pencere Dikkat: Her bir token sadece en yakın komşularına dikkat eder. Bu, yerel bağlamı ve sözdizimsel yapıyı yakalar, tıpkı bir Convolutional Neural Network (CNN) görüntüleri işlediği gibi.
  • Genişletilmiş Kayar Pencere: Hesaplamayı artırmadan algılama alanını genişletmek için, pencere boşluklar içerebilir ve modelin metinde "daha uzağı" görmesini sağlar.
  • Global Dikkat: Önceden seçilmiş belirli belirteçler (sınıflandırma belirteci gibi) [CLS]) sıradaki diğer tüm belirteçlere dikkat eder ve tüm belirteçler onlara dikkat eder. Bu, modelin gibi görevler için tüm girdiyi yüksek düzeyde anlamasını sağlar. metin özetleme.

Gerçek Dünya Uygulamaları

Binlerce tokeni aynı anda işleme yeteneği, Doğal Dil İşleme (NLP) ve ötesinde yeni olanaklar sunar.

1. Hukuki ve Tıbbi Belge Analizi

Hukuk ve sağlık gibi sektörlerde belgeler nadiren kısadır. Bir yasal sözleşme veya bir hastanın tıbbi geçmişi onlarca sayfaya yayılabilir. Geleneksel Büyük Dil Modelleri (LLM'ler), bu belgelerin parçalanmasını gerektirir ve bu da 1. sayfadaki bir cümle ile 30. sayfadaki bir tanım arasındaki önemli bağımlılıkların kaybolmasına neden olabilir . Longformer, Adlandırılmış Varlık Tanıma (NER) ve sınıflandırmanın tüm belge üzerinde aynı anda yapılmasına olanak tanır ve böylece genel bağlamın belirli terimlerin yorumlanmasını etkilemesini sağlar .

2. Uzun Biçimli Soru Yanıtlama (QA)

Standart Soru Yanıtlama sistemleri, bir sorunun yanıtı uzun bir makaleye yayılmış bilgilerin sentezlenmesini gerektirdiğinde genellikle zorluk çeker. Metnin tamamını bellekte tutarak, Longformer tabanlı modeller, farklı paragraflarda bulunan gerçekleri birbirine bağlayarak kapsamlı bir yanıt oluşturmak için çok adımlı akıl yürütme gerçekleştirebilir. Bu, otomatik teknik destek sistemleri ve akademik araştırma araçları için çok önemlidir .

Anahtar Terimlerin Farklılaştırılması

  • Longformer ve Transformer: Standart Transformer, tam $N^2$ dikkat kullanır, bu da onu hassas hale getirir ancak uzun girdiler için hesaplama açısından pahalıdır. Longformer, seyrek $N$ dikkat kullanır ve ihmal edilebilir miktarda teorik kapasiteyi büyük verimlilik kazançları ile takas eder, 4.096 token veya daha fazla girdiye izin verir.
  • Longformer ve Transformer-XL: Her ikisi de uzun dizileri işlerken, Transformer-XL geçmiş segmentleri hatırlamak için bir yineleme mekanizmasına (önceki durumları önbelleğe alma) dayanır. Longformer ise uzun diziyi tek seferde yerel olarak işler, bu da Ultralytics gibi platformlarda paralel eğitimi basitleştirir.
  • Longformer ve BigBird: Bunlar, aynı dönemde geliştirilen çok benzer mimarilerdir. Her ikisi de doğrusal ölçeklendirme elde etmek için seyrek dikkat mekanizmaları kullanır . BigBird, kayan pencerelere ek olarak belirli bir rastgele dikkat bileşeni sunar.

Uygulama Kavramları

Longformer belirli bir işlevden ziyade bir mimari olsa da, uzun bağlamlı modeller için verilerin nasıl hazırlanacağını anlamak çok önemlidir. PyTorch gibi modern çerçevelerde PyTorchgibi modern çerçevelerde bu, genellikle standart sınırları aşan gömmeleri yönetmeyi gerektirir.

Aşağıdaki örnek, uzun bağlam senaryosu tensor sahte girdi tensor oluşturmayı ve bunu YOLO26 gibi standart algılama modellerinde kullanılan tipik boyutla karşılaştırmayı göstermektedir.

import torch

# Standard BERT-like models typically cap at 512 tokens
standard_input = torch.randint(0, 30000, (1, 512))

# Longformer architectures can handle significantly larger inputs (e.g., 4096)
# This allows the model to "see" the entire sequence at once.
long_context_input = torch.randint(0, 30000, (1, 4096))

print(f"Standard Input Shape: {standard_input.shape}")
print(f"Long Context Input Shape: {long_context_input.shape}")

# In computer vision, a similar concept applies when processing high-res images
# without downsampling, preserving fine-grained details.

Bilgisayarla Görme ile İlgisi

Longformer, başlangıçta metinler için tasarlanmış olsa da, arkasındaki ilkeler bilgisayar görüşünü etkilemiştir. Dikkatin yerel bir alana sınırlandırılması kavramı, görsel görevlerdeki yerelleştirilmiş işlemlerle benzerdir. Vision Transformers (ViT), piksel (veya yama) sayısı çok fazla olabileceğinden, yüksek çözünürlüklü görüntülerde benzer ölçeklendirme sorunlarıyla karşılaşır. Longformer'ın seyrek dikkatinden türetilen teknikler, görüntü sınıflandırma ve nesne algılama verimliliğini artırmak için kullanılır ve YOLO26 gibi modellerin ayrıntılı görsel verileri işlerken yüksek hızları korumasına yardımcı olur.

Mimari özellikler hakkında daha fazla bilgi için, AllenAI tarafından hazırlanan orijinal Longformer makalesi, ayrıntılı karşılaştırmalar ve teorik gerekçeler sunmaktadır. Ayrıca, bu kadar büyük modellerin verimli bir şekilde eğitilmesi, genellikle karışık hassasiyet ve gelişmiş optimizasyon algoritmaları gibi tekniklerden yararlanır.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın