Sözlük

İstemi Önbelleğe Alma

Hızlı önbelleğe alma ile yapay zeka verimliliğini artırın! Bu güçlü tekniği kullanarak gecikmeyi nasıl azaltacağınızı, maliyetleri nasıl düşüreceğinizi ve yapay zeka uygulamalarını nasıl ölçeklendireceğinizi öğrenin.

İstem önbelleğe alma, çıkarım sürecini hızlandırmak için öncelikle Büyük Dil Modelleri (LLM'ler) ile kullanılan bir optimizasyon tekniğidir. Ara hesaplama sonuçlarını, özellikle de dikkat mekanizmasındaki anahtar-değer (KV) durumlarını, bir istemin başlangıç kısmının depolanmasıyla çalışır. Yeni bir istem aynı başlangıcı (önek) paylaştığında, model bu önbelleğe alınmış durumları yeniden hesaplamak yerine yeniden kullanabilir, böylece gecikme süresini ve bir yanıt oluşturmak için gereken hesaplama yükünü önemli ölçüde azaltır. Bu, özellikle diyalogsal yapay zeka veya tekrarlayan sorgular içeren uygulamalarda etkilidir.

İstemi Önbelleğe Alma Nasıl Çalışır?

Bir LLM, bir cümle veya paragraf gibi bir metin dizisini işlediğinde, bağlam penceresindeki her bir belirteç için dikkat puanlarını hesaplar. Bu, özellikle uzun istemler için sürecin hesaplama açısından pahalı bir parçasıdır. Genellikle KV önbelleğe alma olarak adlandırılan istem önbelleğe almanın arkasındaki temel fikir, gereksiz çalışmayı önlemektir. Model "Aşağıdaki İngilizce metni Fransızcaya çevirin:" ifadesini zaten işlemişse, sonuçta ortaya çıkan dahili durumu saklar. Daha sonra "Aşağıdaki İngilizce metni Fransızcaya çevir: 'Merhaba, dünya!'" komutunu aldığında, ilk ifade için önbelleğe alınmış durumu yükleyebilir ve hesaplamaya yalnızca yeni kısım olan "'Merhaba, dünya!" için başlayabilir. Bu, sonraki benzer talepler için metin oluşturma sürecini çok daha hızlı hale getirir. vLLM gibi sistemler bu süreci verimli bir şekilde yönetmek ve genel verimi artırmak için tasarlanmıştır.

Gerçek Dünya Uygulamaları

İstemi önbelleğe alma, birçok gerçek dünya yapay zeka sistemi için çok önemli bir optimizasyondur ve daha hızlı yanıtlar sağlayarak kullanıcı deneyimini geliştirir.

  • Etkileşimli Sohbet Robotları ve Sanal Asistanlar: Bir sohbet robotu görüşmesinde, her dönüş önceki alışverişler üzerine inşa edilir. Konuşma geçmişinin bir önek olarak önbelleğe alınması, modelin tüm diyaloğu yeniden işlemeden bir sonraki yanıtı oluşturmasına olanak tanıyarak çok daha akıcı ve duyarlı bir etkileşime yol açar. Bu, modern sanal asistanların performansı için temeldir.
  • Kod Oluşturma ve Tamamlama: GitHub Copilot gibi yapay zeka destekli kodlama asistanları sıklıkla önbelleğe almayı kullanır. Bir dosyadaki mevcut kod uzun bir bilgi istemi görevi görür. Model, bu kodun KV durumlarını önbelleğe alarak, her karakter yazıldığında tüm dosyayı yeniden analiz etmeye gerek kalmadan bir sonraki satır için hızlı bir şekilde öneriler oluşturabilir veya bir işlevi tamamlayabilir, böylece gerçek zamanlı çıkarım mümkün olur.

İstemi Önbelleğe Alma ve İlgili Kavramlar

Hızlı önbelleğe almayı diğer ilgili tekniklerden ayırmak faydalı olacaktır:

  • Hızlı Mühendislik: Yapay zeka modelinden istenen yanıtları ortaya çıkarmak için etkili istemler tasarlamaya odaklanır. Önbelleğe alma, ne kadar iyi tasarlandıklarına bakılmaksızın bu istemlerin yürütülmesini optimize eder.
  • İstemi Zenginleştirme: Kullanıcı istemine modele gönderilmeden önce bağlam veya açıklayıcı bilgi eklenmesini içerir. Önbelleğe alma, modelin (potansiyel olarak zenginleştirilmiş) istemi işlemesi sırasında veya sonrasında gerçekleşir.
  • İstemi Ayarlama ve LoRA: Bunlar, küçük ek parametre setlerini eğiterek bir modelin davranışını uyarlayan parametre-etkin ince ayar (PEFT) yöntemleridir. Önbellekleme, model ağırlıklarının kendisini değiştirmeyen bir çıkarım zamanı optimizasyonudur.
  • Geri Alım-Artırılmış Üretim (RAG): Harici bilgi tabanlarından ilgili bilgileri alarak ve bunları sorgunun bağlamına ekleyerek sorguları geliştirir. RAG girdiyi değiştirirken, önbelleğe alma işlemi birleştirilmiş komut isteminin (orijinal sorgu + alınan veriler) işlenmesine hala uygulanabilir.
  • Standart Çıktı Önbelleğe Alma: Geleneksel web önbelleğe alma, bir isteğin nihai çıktısını saklar. İstem önbelleğe alma genellikle modelin işleme hattındaki ara hesaplama durumlarını depolar ve özellikle ortak önekleri paylaşan ancak farklı sonlara sahip istemler için daha esnek yeniden kullanıma izin verir.

İpucu önbelleğe alma ağırlıklı olarak LLM'lerle ilişkilendirilse de, hesaplamaların önbelleğe alınmasının altında yatan ilke, metin ipuçlarının diğer modalitelerle etkileşime girdiği karmaşık çok mod lu modellerde potansiyel olarak uygulanabilir. Bununla birlikte, Ultralytics YOLO gibi modeller kullanılarak nesne algılama gibi standart bilgisayarla görme (CV) görevlerinde daha az yaygındır. Ultralytics HUB gibi platformlar, önbelleğe alma gibi optimizasyonların üretim ortamlarında performans için çok önemli olabileceği AI modellerinin dağıtımını ve yönetimini kolaylaştırır.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve büyüyün

Şimdi katılın
Panoya kopyalanan bağlantı