YOLO Vision 2025'i kaçırmayın!
25 Eylül 2025
10:00 — 18:00 BST
Hibrit etkinlik
Yolo Vision 2024
Sözlük

Longformer

Uzun diziler için optimize edilmiş, NLP, genomik ve video analizi için ölçeklenebilir verimlilik sunan transformer modeli Longformer'ı keşfedin.

Longformer, çok uzun belgeleri verimli bir şekilde işlemek için tasarlanmış gelişmiş bir Transformer tabanlı modeldir. Allen Yapay Zeka Enstitüsü'ndeki araştırmacılar tarafından geliştirilen temel yeniliği, BERT gibi standart Transformer modellerinin ikinci dereceden ölçeklenmesinin aksine, dizi uzunluğuyla doğrusal olarak ölçeklenen bir dikkat mekanizmasıdır. Bu verimlilik, daha önceki mimariler için hesaplama açısından engelleyici olan binlerce, hatta on binlerce token içeren metinler üzerinde karmaşık Doğal Dil İşleme (NLP) görevlerini gerçekleştirmeyi mümkün kılar.

Longformer Nasıl Çalışır?

Longformer'ın verimliliğinin özü, standart bir Transformer'ın tam dikkat mekanizmasının yerini alan benzersiz dikkat modelinde yatar. Longformer, her bir belirtecin diğer her bir belirtece dikkat etmesi yerine, iki tür dikkati birleştirir:

  • Kayar Pencere (Yerel) Dikkat: Çoğu belirteç, yalnızca her iki taraftaki sabit sayıda komşu belirtece dikkat eder. Bu, bir insanın kelimeleri hemen çevreleyen kelimelere göre anlamasına benzer şekilde, yerel bağlamı yakalar. Bu yaklaşım, Evrişimsel Sinir Ağlarının (CNN'ler) yerel kalıplardan yararlanmadaki başarısından esinlenmiştir.
  • Global Dikkat: Önceden seçilmiş az sayıda belirteç, genel dikkat göstermesi için belirlenir, yani tüm dizideki diğer tüm belirteçlere dikkat edebilirler. Bu "küresel" belirteçler, tüm belgeden üst düzey bilgileri toplayıcılar olarak hareket eder. Göreve özel ince ayar, bu genel belirteçler genellikle stratejik olarak seçilir, örneğin [CLS] sınıflandırma görevleri için belirteç.

Bu kombinasyon, karmaşık belgeleri anlamak için gerekli olan uzun menzilli bağımlılıkları yakalama ve hesaplama verimliliği arasında bir denge sağlar. Orijinal araştırma, "Longformer: Uzun Doküman Dönüştürücü" adlı makalede ayrıntılı olarak açıklanmıştır.

Yapay Zeka ve Makine Öğrenmesindeki Uygulamalar

Longformer'ın uzun dizileri işleyebilme yeteneği, daha önce pratik olmayan birçok uygulama için olanaklar sunar.

  • Uzun Belge Analizi: Tüm kitaplar, uzun araştırma makaleleri veya karmaşık yasal belgeler üzerinde metin özetleme veya soru cevaplama gibi görevleri gerçekleştirebilir. Örneğin, bir hukuk teknolojisi şirketi, ilgili kanıtları bulmak için binlerce sayfalık keşif belgesini otomatik olarak taramak için Longformer tabanlı bir model kullanabilir.
  • Diyalog Sistemleri ve Sohbet Robotları: Bir sohbet robotu veya sanal asistan bağlamında, Longformer çok daha uzun bir konuşma geçmişini koruyabilir ve bu da uzun süreler boyunca daha tutarlı ve bağlam odaklı etkileşimlere yol açar.
  • Genomik ve Biyoenformatik: Mimarisi, uzun DNA veya protein dizilerini analiz etmek, araştırmacıların geniş genetik veri kümelerindeki kalıpları ve işlevleri belirlemesine yardımcı olmak için çok uygundur. Bir araştırma laboratuvarı, bunu tüm bir kromozom içindeki belirli gen dizilerini bulmak için uygulayabilir.

Önceden eğitilmiş Longformer modelleri, geliştiricilerin bunları çeşitli görevlere uyarlamasına olanak tanıyan Hugging Face gibi platformlarda yaygın olarak bulunmaktadır.

İlgili Terimlerle Karşılaştırma

Longformer, uzun diziler için standart Transformer'ların sınırlamalarının üstesinden gelmek için tasarlanmış çeşitli modellerden biridir.

  • Standart Transformer: Temel fark, dikkat mekanizmasıdır. Longformer'ın verimli dikkat modeli uzun diziler için tasarlanmıştır, oysa standart Transformer'lardaki tam öz-dikkat uzun girdiler için çok fazla bellek ve işlem gücü gerektirir.
  • Reformer: Bir diğer verimli Transformer olan Reformer, kaynak kullanımını azaltmak için locality-sensitive hashing (LSH) dikkat mekanizması ve tersine çevrilebilir katmanlar gibi teknikler kullanır. Her ikisi de uzun dizileri hedeflese de, verimliliği sağlamak için farklı teknik stratejiler kullanırlar.
  • Transformer-XL: Bu model, daha uzun bağlamları yönetmek için yineleme ve göreli konum kodlamaları sunarak, metin oluşturma gibi otomatik regresif görevler için özellikle etkili hale getirir. Longformer ise, tek bir uzun belgeyi tek geçişte çift yönlü bir bağlamla işlemek üzere tasarlanmıştır.

Bu NLP modelleri, nesne tespiti gibi görevlerde üstün olan bilgisayar görüşü (CV) modelleri veya Ultralytics YOLO'dan farklı olsa da, hesaplama verimliliği için çaba ortak bir temadır. Longformer'daki gibi karmaşıklığı azaltan yenilikler, güçlü derin öğrenme modellerini gerçek zamanlı çıkarım ve çeşitli donanımlarda model dağıtımı için pratik hale getirmek açısından çok önemlidir. Bu tür gelişmiş modellerin yönetimi, Ultralytics HUB gibi platformlar kullanılarak kolaylaştırılabilir.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın
Bağlantı panoya kopyalandı