Sözlük

Longformer

Uzun diziler için optimize edilmiş, NLP, genomik ve video analizi için ölçeklenebilir verimlilik sunan transformer modeli Longformer'ı keşfedin.

Longformer değiştirilmiş bir Transformer mimarisidir geleneksel modellerin girdi uzunluğu sınırlamalarının üstesinden gelerek uzun veri dizilerini verimli bir şekilde işlemek için tasarlanmıştır gibi BERT. Standart Transformatörler güçlü olsalar da, bellek kullanımları dizi uzunluğu ile dört katına çıkar ve bu da onları Birkaç yüz kelimeden daha uzun belgeler için hesaplama açısından pahalı. Longformer, bu sorunu bir ölçeklendiren seyrek dikkat mekanizması doğrusal olarak, binlerce belirteçten oluşan belgeleri işlemesini sağlar. Bu özellik onu bir köşe taşı haline getirir modern i̇çi̇n teknoloji̇ Doğal Dil İşleme (NLP) Yasal sözleşmelerin analizi, kitapların özetlenmesi veya genomik verilerin işlenmesi gibi kapsamlı metinleri içeren görevler.

Mimari: Seyrek Dikkat

Longformer'ın arkasındaki temel yenilik, standart olarak kullanılan tam öz dikkatten ayrılmasıdır Derin Öğrenme (DL) modelleri. Geleneksel bir kurulumda, Her token diğer her tokena bağlanarak hafızayı hızla tüketen yoğun bir bağlantı ağı oluşturur. Longformer bunu daha verimli, seyrek bir yaklaşımla değiştirerek yüksek performansı korurken hesaplama karmaşıklığı.

Sürgülü Pencere Dikkat: Yerel bağlanabilirlikten esinlenerek Evrişimsel Sinir Ağı (CNN), Longformer, her bir belirtecin yalnızca yakın komşularıyla ilgilendiği bir kayan pencere kullanır. Bu yakalar Sözdizimi ve cümle yapısını anlamak için gerekli yerel bağlam.
Küresel Dikkat: Bir belgenin daha geniş bağlamını anlamak için belirli belirteçler belirlenir tüm diziye katılmak için. Bu, modelin aşağıdaki gibi görevleri yerine getirmesini sağlar tarafından soru cevaplama veya sınıflandırma tüm girdiden gelen bilgileri bir araya getirerek yerel ayrıntılar ile küresel ayrıntılar arasında köprü kurar. Anlayış.

Bu hibrit mekanizma, araştırmacıların standart donanım üzerinde 4.096 veya daha fazla jetondan oluşan dizileri işlemesine olanak tanır, mevcut bağlam penceresini önemli ölçüde genişletme analiz için.

Gerçek Dünya Uygulamaları

Uzun sekansların kesilmeden analiz edilebilmesi, verilerin kesildiği çeşitli alanlarda yeni olanakların önünü açmıştır. süreklilik çok önemlidir.

Yasal ve Finansal Özetleme: Profesyoneller genellikle uzun metinlerden içgörü çıkarmaya ihtiyaç duyarlar anlaşmalar veya yıllık raporlar. Longformer güçleri gelişmiş özetleyebilen metin özetleme araçları tüm belgeyi tek bir geçişte inceleyerek sözleşmenin sonuna yakın kritik maddelerin de dikkate alınmasını sağlar. Giriş.
Genomik Araştırma: Biyoinformatik alanında, bilim insanları olarak işlev gören DNA dizileri son derece uzun biyolojik metin dizeleri. Longformer gen fonksiyonlarının tanımlanmasına ve protein tahminine yardımcı olur Genetik kodların doğasında bulunan uzun menzilli bağımlılıkları modelleyerek yapılar, daha önce standart Büyük Dil Modelleri (LLM'ler).

Longformer'ı İlgili Kavramlardan Ayırt Etmek

Longformer'ı diğer mimarilerle karşılaştırmak, belirli bir araç için doğru aracı seçmek açısından faydalıdır Yapay Zeka (AI) projeleri.

Transformer: Orijinal mimarisi tam bağlantı sunar ($O(n^2)$) ve kısa cümleler için idealdir, ancak uzun girdiler. Longformer bunu $O(n)$ karmaşıklık ile yaklaştırır.
Reformer: Longformer, Reformer gibi verimliliği hedefler ancak bunu Gruplamak için Yerelliğe Duyarlı Hashing (LSH) benzer simgeler ve tersine çevrilebilir artık katmanlar. Longformer genellikle kesin olarak tanımlanmış görevler için tercih edilir Yerel bağlamlar (komşu kelimeler), Reformer ise belleğin mutlak darboğaz olduğu durumlarda kullanışlıdır.
Transformer-XL: Bu model uzunluğu, geçmiş segmentlerin hafızasını tutarak yineleme yoluyla işler. Longformer tüm uzun diziyi işler Bu da belge sınıflandırma gibi otoregresif olmayan görevler için avantajlı olabilir.

Verimli Çıkarım Örneği

Tıpkı Longformer'ın metin işlemeyi hız ve bellek için optimize etmesi gibi, modern görüntü modelleri de görüntü işlemeyi optimize eder. Bu aşağıdaki örnek kullanır Ultralytics YOLO11 göstermek için verimli çıkarım. Bu, karmaşık veri girdilerini işlemek için optimize edilmiş mimarileri kullanma konseptine paraleldir. donanım kaynaklarına aşırı yüklenme.

from ultralytics import YOLO

# Load a YOLO11 model, optimized for efficiency similar to Longformer's design goals
model = YOLO("yolo11n.pt")

# Perform inference on an image URL
# The model processes the input effectively in a single pass
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Output the detection summary
for result in results:
    print(f"Detected {len(result.boxes)} objects.")

Longformer, büyük girdileri işlemek için gereken bellek ayak izini azaltarak geliştiricilerin daha fazla sofistike yapay zeka ajanları ve analitik araçlar. Bu değişim geleceği için doğrusal ölçeklenebilirliğe doğru ilerlemek şarttır. model dağıtımı, güçlü Yapay zeka erişilebilir ve verimli olmaya devam ediyor.

Longformer

Sektörler arası iş akışlarını kolaylaştırmak için Ultralytics YOLO modellerini eğitin

Yeniliklerinizi güçlendirmek için esnek kurumsal lisanslama çözümü

Ultralytics YOLO ile yapay zeka modellerini saniyeler içinde eğitin

Mimari: Seyrek Dikkat

Gerçek Dünya Uygulamaları

Longformer'ı İlgili Kavramlardan Ayırt Etmek

Verimli Çıkarım Örneği

Bu kategoride daha fazla okuyun

Gürültü giderme için kendi kendine denetimli öğrenme: Adım adım ayrıntılı açıklama

Gelecekteki nesne algılama trendleri: Dikkat edilmesi gereken 7 önemli nokta

Ultralytics YOLO modelleri ile araç yeniden tanımlamayı geliştirme

Ultralytics topluluğuna katılın