Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

Longformer

Uzun diziler için optimize edilmiş, NLP, genomik ve video analizi için ölçeklenebilir verimlilik sunan transformer modeli Longformer'ı keşfedin.

Longformer, uzun veri dizilerini verimli bir şekilde işlemek için özel olarak tasarlanmış, BERT gibi geleneksel modellerin giriş uzunluğu sınırlamalarını aşan, değiştirilmiş bir Transformer mimarisidir. Standart Transformer'lar güçlü olmakla birlikte, bellek kullanımları dizi uzunluğuyla kare olarak ölçeklenir, bu da onları birkaç yüz kelimeden uzun belgeler için hesaplama açısından pahalı hale getirir. Longformer, doğrusal olarak ölçeklenen seyrek dikkat mekanizması kullanarak bu sorunu çözer ve binlerce token içeren belgeleri işleyebilir. Bu özelliği, onu yasal sözleşmeleri analiz etmek, kitapları özetlemek veya genomik verileri işlemek gibi kapsamlı metinleri içeren modern Doğal Dil İşleme (NLP) görevleri için temel bir teknoloji haline getirir.

Mimari: Seyrek Dikkat

Longformer'ın arkasındaki temel yenilik, standart olarak kullanılan tam öz dikkatten ayrılmasıdır Derin Öğrenme (DL) modelleri. Geleneksel bir kurulumda, Her token diğer her tokena bağlanarak hafızayı hızla tüketen yoğun bir bağlantı ağı oluşturur. Longformer bunu daha verimli, seyrek bir yaklaşımla değiştirerek yüksek performansı korurken hesaplama karmaşıklığı.

  • Sürgülü Pencere Dikkat: Yerel bağlanabilirlikten esinlenerek Evrişimsel Sinir Ağı (CNN), Longformer, her bir belirtecin yalnızca yakın komşularıyla ilgilendiği bir kayan pencere kullanır. Bu yakalar Sözdizimi ve cümle yapısını anlamak için gerekli yerel bağlam.
  • Küresel Dikkat: Bir belgenin daha geniş bağlamını anlamak için belirli belirteçler belirlenir tüm diziye katılmak için. Bu, modelin aşağıdaki gibi görevleri yerine getirmesini sağlar tarafından soru cevaplama veya sınıflandırma tüm girdiden gelen bilgileri bir araya getirerek yerel ayrıntılar ile küresel ayrıntılar arasında köprü kurar. Anlayış.

Bu hibrit mekanizma, araştırmacıların standart donanım üzerinde 4.096 veya daha fazla jetondan oluşan dizileri işlemesine olanak tanır, mevcut bağlam penceresini önemli ölçüde genişletme analiz için.

Gerçek Dünya Uygulamaları

Uzun sekansların kesilmeden analiz edilebilmesi, verilerin kesildiği çeşitli alanlarda yeni olanakların önünü açmıştır. süreklilik çok önemlidir.

  • Yasal ve Finansal Özetleme: Profesyoneller genellikle uzun metinlerden içgörü çıkarmaya ihtiyaç duyarlar anlaşmalar veya yıllık raporlar. Longformer güçleri gelişmiş özetleyebilen metin özetleme araçları tüm belgeyi tek bir geçişte inceleyerek sözleşmenin sonuna yakın kritik maddelerin de dikkate alınmasını sağlar. Giriş.
  • Genomik Araştırma: Biyoinformatik alanında, bilim insanları olarak işlev gören DNA dizileri son derece uzun biyolojik metin dizeleri. Longformer gen fonksiyonlarının tanımlanmasına ve protein tahminine yardımcı olur Genetik kodların doğasında bulunan uzun menzilli bağımlılıkları modelleyerek yapılar, daha önce standart Büyük Dil Modelleri (LLM'ler).

Longformer'ı İlgili Kavramlardan Ayırt Etmek

Longformer'ı diğer mimarilerle karşılaştırmak, belirli bir araç için doğru aracı seçmek açısından faydalıdır Yapay Zeka (AI) projeleri.

  • Transformer: Orijinal mimari tam bağlantı sağlar ve kısa cümleler için idealdir, ancak uzun girdiler için bellek açısından sınırlayıcı hale gelir. Longformer bunu doğrusal karmaşıklıkla yaklaştırır.
  • Reformer: Longformer, Reformer gibi verimliliği hedefler ancak bunu Gruplamak için Yerelliğe Duyarlı Hashing (LSH) benzer simgeler ve tersine çevrilebilir artık katmanlar. Longformer genellikle kesin olarak tanımlanmış görevler için tercih edilir Yerel bağlamlar (komşu kelimeler), Reformer ise belleğin mutlak darboğaz olduğu durumlarda kullanışlıdır.
  • Transformer-XL: Bu model uzunluğu, geçmiş segmentlerin hafızasını tutarak yineleme yoluyla işler. Longformer tüm uzun diziyi işler Bu da belge sınıflandırma gibi otoregresif olmayan görevler için avantajlı olabilir.

Verimli Çıkarım Örneği

Longformer'ın metin işlemeyi hız ve bellek açısından optimize etmesi gibi, modern görme modelleri de karmaşık girdileri verimli bir şekilde işlemek için görüntü işlemeyi optimize eder. Aşağıdaki örnek, verimli çıkarımları göstermek için Ultralytics kullanır. Bu, donanım kaynaklarını aşırı yüklemeden verileri işlemek için optimize edilmiş mimariler kullanma kavramına paraleldir.

from ultralytics import YOLO

# Load a YOLO26 model, optimized for speed and efficiency similar to Longformer's design goals
model = YOLO("yolo26n.pt")

# Perform inference on an image URL
# The model processes the input effectively in a single pass
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Output the detection summary
for result in results:
    print(f"Detected {len(result.boxes)} objects.")

Longformer gibi mimariler, büyük girdileri işlemek için gereken bellek ayak izini azaltarak, geliştiricilerin daha sofistike AI ajanları ve analitik araçlar oluşturmasını sağlar. Doğrusal ölçeklenebilirliğe doğru bu geçiş, model dağıtımının geleceği için çok önemlidir ve güçlü AI'nın erişilebilir ve verimli kalmasını sağlar.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın