Sözlük

Longformer

NLP, genomik ve video analizi için ölçeklenebilir verimlilik sunan, uzun diziler için optimize edilmiş dönüştürücü modeli Longformer'ı keşfedin.

YOLO modellerini Ultralytics HUB ile basitçe
eğitin

Daha fazla bilgi edinin

Longformer, çok uzun metin dizilerini verimli bir şekilde işlemek için özel olarak tasarlanmış bir Transformer modeli türüdür. Allen Yapay Zeka Enstitüsü (AI2) tarafından geliştirilen bu model, BERT ve GPT gibi standart Transformatör modellerinin temel bir sınırlamasını ele alır; bu modellerin hesaplama ve bellek gereksinimleri dizinin uzunluğuyla birlikte dört kat artar. Bu da standart Transformatörleri tüm belgelerin, kitapların veya uzun konuşmaların işlenmesi gibi binlerce jeton içeren görevler için kullanışsız hale getirmektedir. Longformer, bu uzun dizileri işlemek için optimize edilmiş bir dikkat mekanizması kullanır ve Transformatörlerin gücünü daha geniş bir Doğal Dil İşleme (NLP) görev yelpazesine uygulamayı mümkün kılar.

Longformer Nasıl Çalışır?

Longformer'ın temel yeniliği, verimli kendi kendine dikkat modelinde yatmaktadır. Standart Transformatörler, her belirtecin dizideki diğer tüm belirteçlere katıldığı "tam" bir kendi kendine dikkat mekanizması kullanır. Güçlü olsa da, bu ikinci dereceden karmaşıklık darboğazına yol açar. Longformer bunu dikkat modellerinin bir kombinasyonu ile değiştirir:

  1. Kayan Pencere Dikkati: Her belirteç yalnızca çevresindeki komşu belirteçlerin sabit boyutlu bir penceresine katılır. Bu, yerel bağlamı etkili bir şekilde yakalar ve dizi uzunluğu ile doğrusal olarak ölçeklenir.
  2. Genişletilmiş Kayar Pencere Dikkati: Hesaplama eklemeden alıcı alanı artırmak için pencere "genişletilebilir", yani görüş alanındaki bazı belirteçleri atlayarak, yalnızca sabit bir sayıya dikkat ederken daha uzaktaki belirteçlerden bilgi yakalamasına izin verir.
  3. Küresel Dikkat: Önceden seçilmiş belirli belirteçler (örn. [CLS] sınıflandırma görevleri için kullanılır) tüm diziye katılmasına izin verilir ve tüm dizi onlara katılabilir. Bu, göreve özgü bilgilerin küresel olarak entegre edilebilmesini sağlar.

Bu kombinasyon, Longformer'ın standart Transformer'lara benzer şekilde hem yerel hem de küresel bilgileri içeren bağlamsal temsiller oluşturmasına olanak tanır, ancak dizinin uzunluğu ile karesel olarak değil doğrusal olarak ölçeklenen hesaplama karmaşıklığı ile. Bu, BERT gibi modellerin tipik 512 veya 1024 belirteç sınırlarına kıyasla on binlerce belirteçten oluşan dizilerin işlenmesini mümkün kılar. Uygulamalar, Hugging Face Transformers gibi kütüphanelerde kolayca mevcuttur.

Temel Özellikler ve Avantajlar

  • Verimlilik: Hesaplama ve belleğin dizi uzunluğuyla doğrusal ölçeklendirilmesi, çok daha uzun belgelerin işlenmesini sağlar.
  • Ölçeklenebilirlik: Öncelikle donanım belleği ile sınırlı uzunluklara kadar dizileri işleyebilir (örneğin, standart BERT için 512'ye kıyasla 4096 belirteç veya daha fazlası).
  • Performans: Çeşitli NLP görevlerinde güçlü performansını korur, uzun menzilli bağımlılıklar önemli olduğunda genellikle daha kısa bağlamlarla sınırlı modellerden daha iyi performans gösterir.
  • Esneklik: Birçok derin öğrenme mimarisinde standart Transformatör katmanlarının yerine kullanılabilir.
  • Ön eğitim ve İnce ayar: Büyük metin derlemeleri üzerinde önceden eğitilebilir ve ardından diğer Transformer modellerine benzer şekilde belirli aşağı akış görevleri için ince ayar yapılabilir.

Gerçek Dünya Uygulamaları

Longformer'ın uzun dizileri işleme yeteneği, çeşitli alanlardaki yeteneklerin kilidini açar:

  • Belge Özetleme: Önemli bilgilerin tüm metne yayılmış olabileceği uzun makalelerin, araştırma makalelerinin veya raporların özetlenmesi. Standart modeller kısaltma nedeniyle bağlamı kaçırabilir.
  • Uzun Belgelerde Soru Yanıtlama: Yasal sözleşmeler, teknik kılavuzlar veya kitaplar gibi uzun belgelerde yer alan bilgilere dayalı soruları, belgeyi daha küçük, potansiyel olarak bağlamı bozan parçalara ayırmaya gerek kalmadan yanıtlamak. Örneğin, yasal bir yapay zeka 100 sayfalık bir sözleşmedeki ilgili maddeleri bulmak için Longformer'ı kullanabilir.
  • Bilimsel Literatür Analizi: Bilgi çıkarma veya bilgi grafiği oluşturma gibi görevler için tam uzunluktaki bilimsel makalelerdeki karmaşık ilişkileri ve bulguları işleme ve anlama.
  • Diyalog Sistemleri: Uzun etkileşimlerde daha iyi bağlam ve tutarlılık sağlamak için sohbet robotlarında veya sanal asistanlarda uzun konuşma geçmişlerini analiz etme.

Yapay Zeka/ML'de Önem

Longformer, derin öğrenme modellerinin uzun biçimli metinleri anlamasını ve bunlar üzerinde mantık yürütmesini sağlamada önemli bir adımı temsil etmektedir. Standart Dönüştürücülerin ikinci dereceden karmaşıklık darboğazını aşarak, Büyük Dil Modellerinin (LLM 'ler) belgeler, kitaplar ve genişletilmiş diyalogları içeren görevlerin üstesinden daha etkili bir şekilde gelmesine olanak tanır. Bu özellik, derin bağlamsal anlayış gerektiren uygulamalar için çok önemlidir ve yapay zekanın (AI) uzun formatlarda bulunan insan dilini işlemede başarabileceklerinin sınırlarını zorlar.

gibi modeller olsa da Ultralytics YOLO11Nesne algılama ve görüntü segmentasyonu gibi bilgisayarla görme (CV) görevlerinde mükemmel olan Longformer, NLP alanındaki karmaşık, uzun biçimli metinsel verilerin işlenmesi için benzer gelişmeler sağlar. Ultralytics HUB gibi araçlar, potansiyel olarak Longformer gibi NLP modellerini de içeren ve aşağıdaki gibi çerçeveler kullanılarak belirli görevler için ince ayar yapılmış çeşitli yapay zeka modellerinin dağıtımını ve yönetimini kolaylaştırır PyTorch veya TensorFlow.

İlgili Terimlerle Karşılaştırma

  • Standart Transformatör: Longformer, standart Transformer mimarisinin bir modifikasyonudur. Temel fark, Longformer'ın uzun diziler için tasarlanmış verimli dikkat mekanizmasıdır (kayan pencere + küresel dikkat), oysa standart Transformatörler uzun girdiler için hesaplama açısından pahalı olan tam öz dikkat kullanır.
  • Reformer: Bir başka verimli Transformer çeşidi olan Reformer, bellek ve hesaplama maliyetlerini azaltmak için yerelliğe duyarlı hashing (LSH) dikkati ve tersine çevrilebilir artık katmanlar gibi teknikler kullanır. Her ikisi de uzun dizileri hedeflese de, verimlilik elde etmek için farklı teknik yaklaşımlar kullanırlar.
  • Transformer-XL: Transformer-XL, standart Transformer'lardan daha uzun bağlamları ele almak için yineleme ve göreli konumsal katıştırmalar sunar, özellikle otomatik regresif dil modellemesinde kullanışlıdır. Longformer, kendine özgü dikkat modelini kullanarak tek bir uzun sekans içindeki çift yönlü bağlamlara daha fazla odaklanır.
Tümünü okuyun