Longformer
NLP, genomik ve video analizi için ölçeklenebilir verimlilik sunan, uzun diziler için optimize edilmiş dönüştürücü modeli Longformer'ı keşfedin.
Longformer, çok uzun belgeleri verimli bir şekilde işlemek için tasarlanmış Transformer tabanlı gelişmiş bir modeldir. Allen Institute for AI'daki araştırmacılar tarafından geliştirilen bu modelin ana yeniliği, BERT gibi standart Transformer modellerinin ikinci dereceden ölçeklendirmesinin aksine, dizi uzunluğu ile doğrusal olarak ölçeklendirilen bir dikkat mekanizmasıdır. Bu verimlilik, binlerce hatta on binlerce belirteç içeren metinler üzerinde karmaşık Doğal Dil İşleme (NLP) görevlerinin gerçekleştirilmesini mümkün kılar ki bu da daha önceki mimariler için hesaplama açısından engelleyici bir durumdur.
Longformer Nasıl Çalışır?
Longformer'ın verimliliğinin özü, standart bir Transformer'ın tam öz dikkat mekanizmasının yerini alan benzersiz dikkat modelinde yatmaktadır. Her belirtecin diğer tüm belirteçlere dikkat etmesi yerine, Longformer iki tür dikkati birleştirir:
- Kayan Pencere (Yerel) Dikkat: Çoğu belirteç yalnızca her iki taraftaki sabit sayıda komşu belirtece dikkat eder. Bu, bir insan okuyucunun kelimeleri hemen çevrelerindeki kelimelere dayanarak anlamasına benzer şekilde yerel bağlamı yakalar. Bu yaklaşım, Evrişimsel Sinir Ağlarının (CNN'ler) yerel örüntülerden yararlanmadaki başarısından esinlenmiştir.
- Küresel Dikkat: Önceden seçilmiş az sayıda belirteç, küresel dikkate sahip olacak şekilde belirlenir, yani tüm dizideki diğer tüm belirteçlere katılabilirler. Bu "global" belirteçler, tüm belgeden üst düzey bilgi toplayıcıları olarak hareket eder. Göreve özel belirteçler için ince ayarbu küresel belirteçler genellikle stratejik olarak seçilir, örneğin
[CLS]
sınıflandırma görevleri için belirteç.
Bu kombinasyon, hesaplama verimliliği ile karmaşık belgelerin anlaşılması için gerekli uzun menzilli bağımlılıkların yakalanması arasında bir denge sağlar. Orijinal araştırma"Longformer: The Long-Document Transformer" başlıklı makalede ayrıntılı olarak açıklanmıştır.
Yapay Zeka ve Makine Öğrenimi Uygulamaları
Longformer'ın uzun dizileri işleme kabiliyeti, daha önce pratik olmayan birçok uygulama için olasılıkların önünü açar.
- Uzun Belge Analizi: Tüm kitaplar, uzun araştırma makaleleri veya karmaşık yasal belgeler üzerinde metin özetleme veya soru yanıtlama gibi görevleri yerine getirebilir. Örneğin, bir hukuk teknolojisi şirketi, ilgili kanıtları bulmak amacıyla binlerce sayfalık keşif belgelerini otomatik olarak taramak için Longformer tabanlı bir model kullanabilir.
- Diyalog Sistemleri ve Chatbotlar: Bir sohbet robotu veya sanal asistan bağlamında, Longformer çok daha uzun bir konuşma geçmişi tutabilir ve bu da uzun süreler boyunca daha tutarlı ve bağlama duyarlı etkileşimlere yol açar.
- Genomik ve Biyoinformatik: Mimarisi, uzun DNA veya protein dizilerini analiz etmek için çok uygundur ve araştırmacıların geniş genetik veri kümelerindeki kalıpları ve işlevleri belirlemelerine yardımcı olur. Bir araştırma laboratuvarı bunu tüm bir kromozom içindeki belirli gen dizilerini bulmak için uygulayabilir.
Önceden eğitilmiş Longformer modelleri, Hugging Face gibi platformlarda yaygın olarak bulunmakta ve geliştiricilerin bunları çeşitli görevler için uyarlamasına olanak tanımaktadır.
İlgili Terimlerle Karşılaştırma
Longformer, uzun diziler için standart Transformatörlerin sınırlamalarının üstesinden gelmek üzere tasarlanmış birkaç modelden biridir.
- Standart Transformatör: Temel fark dikkat mekanizmasıdır. Longformer'ın verimli dikkat modeli uzun diziler için tasarlanmıştır, oysa standart Transformer'lardaki tam öz dikkat uzun girdiler için çok fazla bellek ve hesaplama gerektirir.
- Reformer: Bir başka verimli Dönüştürücü olan Reformer, kaynak kullanımını azaltmak için yerelliğe duyarlı hashing (LSH) dikkati ve tersine çevrilebilir katmanlar gibi teknikler kullanır. Her ikisi de uzun dizileri hedeflese de, verimlilik elde etmek için farklı teknik stratejiler kullanırlar.
- Transformer-XL: Bu model, daha uzun bağlamları yönetmek için yineleme ve göreli konumsal katıştırmalar sunar ve bu da onu metin oluşturma gibi otomatik regresif görevler için özellikle etkili kılar. Buna karşın Longformer, tek bir geçişte çift yönlü bir bağlama sahip tek bir uzun belgeyi işlemek için tasarlanmıştır.
Bu NLP modelleri, Ultralytics YOLO gibi nesne algılama gibi görevlerde mükemmel olan bilgisayarla görme (CV) modellerinden farklı olsa da, hesaplama verimliliğine yönelik dürtü ortak bir temadır. Longformer'da olduğu gibi karmaşıklığı azaltan yenilikler, güçlü derin öğrenme modellerini gerçek zamanlı çıkarım ve çeşitli donanımlarda model dağıtımı için pratik hale getirmek için çok önemlidir. Bu tür gelişmiş modellerin yönetimi Ultralytics HUB gibi platformlar kullanılarak kolaylaştırılabilir.