Uzun veri dizilerini verimli bir şekilde işlemek için Longformer mimarisini keşfedin. Seyrek dikkatin NLP ve Bilgisayar Görme için bellek sınırlarını nasıl aştığını öğrenin.
Longformer, geleneksel modellerin sınırlamalarını aşarak uzun veri dizilerini verimli bir şekilde işlemek için tasarlanmış özel bir derin öğrenme mimarisidir. Başlangıçta, bellek kısıtlamaları nedeniyle genellikle 512 token'dan uzun dizilerle zorlanan standart Transformer'ların kısıtlamalarını gidermek için tanıtılan Longformer, değiştirilmiş bir dikkat mekanizması kullanır. Hesaplama karmaşıklığını ikinci dereceden doğrusal hale getirerek, bu mimari AI sistemlerinin tüm belgeleri, uzun transkriptleri veya karmaşık genetik dizileri girişi kesmeden tek seferde analiz etmesini sağlar.
Longformer'ın önemini anlamak için, BERT ve ilk GPT-3 modelleri gibi öncüllerinin sınırlamalarına bakmak gerekir. Standart dönüştürücüler, her bir token'ın (kelime veya kelimenin bir parçası) dizideki diğer tüm token'lara dikkat ettiği "kendi kendine dikkat" işlemini kullanır. Bu, ikinci dereceden bir hesaplama maliyeti yaratır; dizi uzunluğunun iki katına çıkması, sistemde gerekli belleği dört katına çıkarır. GPU. Sonuç olarak, çoğu standart model, giriş boyutuna katı bir sınır getirir ve genellikle veri bilimcilerini belgeleri daha küçük, bağlantısız segmentlere ayırmaya zorlar, bu da bağlam kaybına neden olur.
Longformer, Sparse Attention'ı tanıtarak bu sorunu çözüyor. Tamamen tümüyle bağlantı yerine, pencereli yerel dikkat ve küresel dikkatin bir kombinasyonunu kullanıyor:
[CLS])
sıradaki diğer tüm belirteçlere dikkat eder ve tüm belirteçler onlara dikkat eder. Bu, modelin
gibi görevler için tüm girdiyi yüksek düzeyde anlamasını sağlar.
metin özetleme.
Binlerce tokeni aynı anda işleme yeteneği, Doğal Dil İşleme (NLP) ve ötesinde yeni olanaklar sunar.
Hukuk ve sağlık gibi sektörlerde belgeler nadiren kısadır. Bir yasal sözleşme veya bir hastanın tıbbi geçmişi onlarca sayfaya yayılabilir. Geleneksel Büyük Dil Modelleri (LLM'ler), bu belgelerin parçalanmasını gerektirir ve bu da 1. sayfadaki bir cümle ile 30. sayfadaki bir tanım arasındaki önemli bağımlılıkların kaybolmasına neden olabilir . Longformer, Adlandırılmış Varlık Tanıma (NER) ve sınıflandırmanın tüm belge üzerinde aynı anda yapılmasına olanak tanır ve böylece genel bağlamın belirli terimlerin yorumlanmasını etkilemesini sağlar .
Standart Soru Yanıtlama sistemleri, bir sorunun yanıtı uzun bir makaleye yayılmış bilgilerin sentezlenmesini gerektirdiğinde genellikle zorluk çeker. Metnin tamamını bellekte tutarak, Longformer tabanlı modeller, farklı paragraflarda bulunan gerçekleri birbirine bağlayarak kapsamlı bir yanıt oluşturmak için çok adımlı akıl yürütme gerçekleştirebilir. Bu, otomatik teknik destek sistemleri ve akademik araştırma araçları için çok önemlidir .
Longformer belirli bir işlevden ziyade bir mimari olsa da, uzun bağlamlı modeller için verilerin nasıl hazırlanacağını anlamak çok önemlidir. PyTorch gibi modern çerçevelerde PyTorchgibi modern çerçevelerde bu, genellikle standart sınırları aşan gömmeleri yönetmeyi gerektirir.
Aşağıdaki örnek, uzun bağlam senaryosu tensor sahte girdi tensor oluşturmayı ve bunu YOLO26 gibi standart algılama modellerinde kullanılan tipik boyutla karşılaştırmayı göstermektedir.
import torch
# Standard BERT-like models typically cap at 512 tokens
standard_input = torch.randint(0, 30000, (1, 512))
# Longformer architectures can handle significantly larger inputs (e.g., 4096)
# This allows the model to "see" the entire sequence at once.
long_context_input = torch.randint(0, 30000, (1, 4096))
print(f"Standard Input Shape: {standard_input.shape}")
print(f"Long Context Input Shape: {long_context_input.shape}")
# In computer vision, a similar concept applies when processing high-res images
# without downsampling, preserving fine-grained details.
Longformer, başlangıçta metinler için tasarlanmış olsa da, arkasındaki ilkeler bilgisayar görüşünü etkilemiştir. Dikkatin yerel bir alana sınırlandırılması kavramı, görsel görevlerdeki yerelleştirilmiş işlemlerle benzerdir. Vision Transformers (ViT), piksel (veya yama) sayısı çok fazla olabileceğinden, yüksek çözünürlüklü görüntülerde benzer ölçeklendirme sorunlarıyla karşılaşır. Longformer'ın seyrek dikkatinden türetilen teknikler, görüntü sınıflandırma ve nesne algılama verimliliğini artırmak için kullanılır ve YOLO26 gibi modellerin ayrıntılı görsel verileri işlerken yüksek hızları korumasına yardımcı olur.
Mimari özellikler hakkında daha fazla bilgi için, AllenAI tarafından hazırlanan orijinal Longformer makalesi, ayrıntılı karşılaştırmalar ve teorik gerekçeler sunmaktadır. Ayrıca, bu kadar büyük modellerin verimli bir şekilde eğitilmesi, genellikle karışık hassasiyet ve gelişmiş optimizasyon algoritmaları gibi tekniklerden yararlanır.