Sözlük

İstemi Önbelleğe Alma

Hızlı önbelleğe alma ile yapay zeka verimliliğini artırın! Bu güçlü tekniği kullanarak gecikmeyi nasıl azaltacağınızı, maliyetleri nasıl düşüreceğinizi ve yapay zeka uygulamalarını nasıl ölçeklendireceğinizi öğrenin.

YOLO modellerini Ultralytics HUB ile basitçe
eğitin

Daha fazla bilgi edinin

İstem önbelleğe alma, öncelikle Büyük Dil Modelleri (LLM'l er) ve diğer üretken Yapay Zeka (AI) modellerinde kullanılan bir optimizasyon tekniğidir. Belirli bir girdi isteminin (veya bir kısmının) işlenmesinin sonuçlarının saklanmasını içerir, böylece aynı veya çok benzer bir istem tekrar alınırsa, saklanan sonuç sıfırdan yeniden hesaplamak yerine hızlı bir şekilde geri alınabilir ve yeniden kullanılabilir. Bu, çıkarım gecikmesini önemli ölçüde azaltır, GPT-4 gibi güçlü modellerin çalıştırılmasıyla ilişkili hesaplama maliyetlerini düşürür ve yapay zeka uygulamalarının genel verimliliğini ve ölçeklenebilirliğini artırır.

İstemi Önbelleğe Alma Nasıl Çalışır?

Bir LLM bir istemi işlediğinde, genellikle dikkat mekanizmalarını içeren sinir ağı katmanlarında tokenizasyon ve karmaşık hesaplamalar dahil olmak üzere çeşitli hesaplama adımlarından geçer. İstem önbelleği tipik olarak ara hesaplama durumunu (T ransformer mimarisinin dikkat katmanlarındaki anahtar-değer çiftleri gibi, genellikle KV önbelleği olarak adlandırılır) belirli bir istemle veya bir istemin önekiyle ilişkili olarak depolar. Yeni bir istem geldiğinde, sistem önekinin daha önce işlenmiş ve önbelleğe alınmış bir istemle eşleşip eşleşmediğini kontrol eder. Bir eşleşme bulunursa, önbelleğe alınan ara durum geri getirilerek modelin ilk hesaplama adımlarını atlamasına ve yanıtı bu kaydedilmiş durumdan oluşturmaya başlamasına olanak tanır. Bu özellikle diyalogsal yapay zekada veya istemlerin ortak başlangıçları paylaştığı senaryolarda etkilidir. Sistemler bu önbellekleri verimli bir şekilde yönetmek için genellikle Redis veya Memcached gibi anahtar-değer depolarını kullanır.

İstemi Önbelleğe Almanın Faydaları

Hızlı önbellekleme uygulamak çeşitli avantajlar sunar:

  • Azaltılmış Gecikme: Tekrarlanan veya benzer sorgular için yanıt sürelerini önemli ölçüde hızlandırarak sohbet robotları gibi etkileşimli uygulamalarda kullanıcı deneyimini geliştirir.
  • Daha Düşük Hesaplama Maliyetleri: GPU'lar gibi pahalı donanımlar üzerindeki yükü azaltarak, özellikle bulut bilişim kaynakları kullanıldığında veya ticari LLM'lere API çağrıları yapıldığında maliyet tasarrufu sağlar.
  • Geliştirilmiş Verim: Kaynaklar daha hızlı serbest bırakıldığı için sistemin aynı anda daha fazla talebi işlemesini sağlar.
  • Tutarlılık: Aynı istemler için aynı yanıtları sağlar, bu da bazı uygulamalarda istenebilir.

Gerçek Dünya Uygulamaları

Hızlı önbelleğe alma, çeşitli yapay zeka odaklı sistemlerde değerlidir:

  1. Diyaloğa Dayalı Yapay Zeka ve Sanal Asistanlar: Müşteri hizmetleri sanal asistanları gibi sistemlerde, birçok konuşma benzer selamlamalarla veya ortak sorularla başlar (örneğin, "Çalışma saatleriniz nedir?", "Şifremi nasıl sıfırlayabilirim?"). Bu ortak girdilerin ilk işlemlerinin önbelleğe alınması, sistemin çok daha hızlı yanıt vermesini sağlar. Örneğin, "Merhaba, yardıma ihtiyacım var..." işleminden sonraki işleme durumu önbelleğe alınabilir ve benzer talepleri başlatan birden fazla kullanıcı için anında yeniden kullanılabilir. Müşteri hizmetlerinde yapay zekayı keşfedin.
  2. İçerik Üretme Platformları: Yazma asistanları veya kod oluşturucular gibi metin üretimi için kullanılan araçlar, genellikle yinelenen talimatlar veya bağlam önekleri içeren istemler alır (örneğin, "Aşağıdaki metni Fransızcaya çevirin:", "Şunun için Python kodu yazın..."). Bu öneklere karşılık gelen durumu önbelleğe almak, özellikle etkileşimli veya yüksek hacimli ortamlarda yararlı olan üretim sürecini hızlandırır. Üretken yapay zeka kullanım örnekleri hakkında bilgi edinin.

İstemi Önbelleğe Alma ve İlgili Kavramlar

Hızlı önbelleğe almayı diğer ilgili tekniklerden ayırmak faydalı olacaktır:

  • Hızlı Mühendislik: Yapay zeka modelinden istenen yanıtları ortaya çıkarmak için etkili istemler tasarlamaya odaklanır. Önbelleğe alma, ne kadar iyi tasarlandıklarına bakılmaksızın bu istemlerin yürütülmesini optimize eder.
  • İstemi Zenginleştirme: Kullanıcı istemine modele gönderilmeden önce bağlam veya açıklayıcı bilgi eklenmesini içerir. Önbelleğe alma, modelin (potansiyel olarak zenginleştirilmiş) istemi işlemesi sırasında veya sonrasında gerçekleşir.
  • İstemi Ayarlama ve LoRA: Bunlar, küçük ek parametre setlerini eğiterek bir modelin davranışını uyarlayan ve modeli belirli görevler için etkili bir şekilde özelleştiren parametre-etkin ince ayar (PEFT) yöntemleridir. Önbelleğe alma, modelin kendisini değiştirmeyen bir çıkarım zamanı optimizasyonudur.
  • Geri Alım-Artırılmış Üretim (RAG): Harici bilgi tabanlarından ilgili bilgileri alarak ve bunları sorgunun bağlamına ekleyerek sorguları geliştirir. RAG girdiyi değiştirirken, önbelleğe alma işlemi birleştirilmiş komut isteminin (orijinal sorgu + alınan veriler) işlenmesine hala uygulanabilir.
  • Standart Çıktı Önbelleğe Alma: Geleneksel web önbelleğe alma, bir isteğin nihai çıktısını saklar. İstem önbelleğe alma genellikle modelin işleme hattındaki ara hesaplama durumlarını depolar ve özellikle ortak önekleri paylaşan ancak farklı sonlara sahip istemler için daha esnek yeniden kullanıma izin verir.

İpucu önbelleğe alma ağırlıklı olarak LLM'lerle ilişkilendirilse de, hesaplamaların önbelleğe alınmasının altında yatan ilke, metin istemlerinin diğer modalitelerle etkileşime girdiği karmaşık çok mod lu modellerde potansiyel olarak uygulanabilir, ancak nesne algılama gibi standart bilgisayarla görme görevlerinde daha az yaygındır. Ultralytics YOLO(bkz. YOLO model karşılaştırmaları). Ultralytics HUB gibi platformlar, önbelleğe alma gibi optimizasyonların üretim ortamlarında performans için çok önemli olabileceği AI modellerinin dağıtımını ve yönetimini kolaylaştırır(en iyi dağıtım uygulamaları hakkında bilgi edinin).

Tümünü okuyun