Sözlük

İstem Önbelleğe Alma

İstem önbelleğe alma ile yapay zeka verimliliğini artırın! Bu güçlü tekniği kullanarak gecikmeyi nasıl azaltacağınızı, maliyetleri nasıl düşüreceğinizi ve yapay zeka uygulamalarını nasıl ölçeklendireceğinizi öğrenin.

İstem önbelleğe alma, çıkarım sürecini hızlandırmak için öncelikle Büyük Dil Modelleri (LLM'ler) ile kullanılan bir optimizasyon tekniğidir. Bir istemin başlangıç kısmının ara hesaplama sonuçlarını depolayarak çalışır. Yeni bir istem, önek olarak bilinen aynı başlangıcı paylaştığında, model önbelleğe alınan bu durumları yeniden hesaplamak yerine yeniden kullanabilir. Bu yöntem, gecikme süresini ve yanıt oluşturmak için gereken hesaplama yükünü önemli ölçüde azaltarak özellikle diyalogsal yapay zeka veya tekrarlayan sorgular içeren uygulamalarda etkili olmasını sağlar. Gereksiz hesaplamalardan kaçınarak, hızlı önbelleğe alma işlemi verimi artırır ve operasyonel maliyetleri düşürür.

İstem Önbelleğe Alma Nasıl Çalışır

Bir LLM bir metin dizisini işlerken, bağlam penceresi içindeki her bir belirteç için dahili durumları hesaplar. Bu, özellikle uzun istemler için işlemin hesaplama açısından pahalı bir parçasıdır. Genellikle KV önbellekleme olarak adlandırılan istem önbelleklemenin arkasındaki temel fikir, bu dahili durumları, özellikle de dikkat mekanizmasındaki anahtar-değer (KV) çiftlerini kaydetmektir. Örneğin, bir model "Aşağıdaki İngilizce metni Fransızcaya çevirin:" önekini işlerse, ortaya çıkan durumu saklar. Daha sonra "Aşağıdaki İngilizce metni Fransızcaya çevir: 'Merhaba, dünya!'" gibi tam bir istem aldığında, ilk ifade için önbelleğe alınmış durumu yükleyebilir ve yalnızca yeni bölüm için hesaplamaya başlayabilir. Bu, sonraki benzer istekler için metin oluşturma sürecini çok daha hızlı hale getirir. Açık kaynaklı vLLM projesi gibi sistemler, bu süreci verimli bir şekilde yönetmek ve genel çıkarım motoru verimini artırmak için tasarlanmıştır.

Gerçek Dünya Uygulamaları

İstemi önbelleğe alma, birçok gerçek dünya Yapay Zeka (AI) sistemi için çok önemli bir optimizasyondur ve daha hızlı yanıtlar sağlayarak kullanıcı deneyimini geliştirir.

Etkileşimli Sohbet Robotları ve Sanal Asistanlar: Bir sohbet robotu görüşmesinde, her tur önceki alışverişler üzerine inşa edilir. Konuşma geçmişinin bir önek olarak önbelleğe alınması, modelin tüm diyaloğu yeniden işlemeden bir sonraki yanıtı oluşturmasını sağlar. Bu, modern sanal asistanların performansı için temel olan ve Poe gibi platformlarda kullanıcı deneyimini geliştiren çok daha akıcı ve duyarlı bir etkileşime yol açar.
Kod Oluşturma ve Tamamlama: GitHub Copilot gibi yapay zeka destekli kodlama asistanları sıklıkla önbelleğe almayı kullanır. Bir dosyadaki mevcut kod uzun bir bilgi istemi görevi görür. Model, bu kodun KV durumlarını önbelleğe alarak, her karakter yazıldığında tüm dosyayı yeniden analiz etmeye gerek kalmadan bir sonraki satır için hızlı bir şekilde öneriler oluşturabilir veya bir işlevi tamamlayabilir, böylece gerçek zamanlı çıkarım mümkün olur. Bu teknik, yapay zeka kod asistanlarının nasıl çalıştığının önemli bir parçasıdır.

Prompt Önbellekleme ve İlgili Kavramlar

Hızlı önbelleğe almayı makine öğrenimindeki (ML) diğer ilgili tekniklerden ayırmak faydalı olacaktır:

Hızlı Mühendislik: Bir yapay zeka modelinden istenen yanıtları ortaya çıkarmak için etkili istemler tasarlamaya odaklanır. Önbelleğe alma, ne kadar iyi tasarlandıklarına bakılmaksızın bu istemlerin yürütülmesini optimize eder.
İstemi Zenginleştirme: Kullanıcı istemine modele gönderilmeden önce bağlam veya açıklayıcı bilgi eklenmesini içerir. Önbelleğe alma, modelin (potansiyel olarak zenginleştirilmiş) istemi işlemesi sırasında gerçekleşir.
İstemi Ayarlama ve LoRA: Bunlar, küçük ek parametre setlerini eğiterek bir modelin davranışını uyarlayan parametre-etkin ince ayar (PEFT) yöntemleridir. Önbellekleme, model ağırlıklarının kendisini değiştirmeyen bir çıkarım zamanı optimizasyonudur.
Geri Alım-Artırılmış Üretim (RAG): Harici bilgi tabanlarından ilgili bilgileri alarak ve bunları istem bağlamına ekleyerek istemleri geliştirir. RAG girdiyi değiştirirken, birleştirilmiş komut isteminin işlenmesinde önbelleğe alma hala uygulanabilir.
Standart Çıktı Önbelleğe Alma: Bir İçerik Dağıtım Ağı (CDN) tarafından yönetilen geleneksel web önbelleğe alma, bir isteğin nihai çıktısını depolar. İstemi önbelleğe alma, ara hesaplama durumlarını modelin işleme hattı içinde depolar ve daha esnek yeniden kullanıma olanak tanır.

İpucu önbelleğe alma ağırlıklı olarak LLM'lerle ilişkilendirilse de, hesaplamaların önbelleğe alınmasının altında yatan ilke, metin ipuçlarının diğer modalitelerle etkileşime girdiği karmaşık çok mod lu modellerde uygulanabilir. Bununla birlikte, Ultralytics YOLO11 gibi modeller kullanılarak nesne algılama gibi standart bilgisayarla görme (CV) görevlerinde daha az yaygındır. Model dağıtımı için platformlar, Anyscale ve NVIDIA gibi sağlayıcıların kaynaklarında ayrıntılı olarak açıklandığı gibi, önbelleğe alma gibi optimizasyonların üretim ortamlarında performans için çok önemli hale geldiği yerdir.

İstem Önbelleğe Alma

Endüstriler genelinde iş akışlarını kolaylaştırmak için Ultralytics YOLO modellerini eğitin

Yeniliklerinizi güçlendirmek için esnek kurumsal lisanslama çözümü

Ultralytics YOLO ile saniyeler içinde yapay zeka modellerini eğitin

İstem Önbelleğe Alma Nasıl Çalışır

Gerçek Dünya Uygulamaları

Prompt Önbellekleme ve İlgili Kavramlar

Bu kategoride daha fazla okuyun

ExecuTorch entegrasyonunu kullanarak Ultralytics YOLO modellerini dağıtın

PyTorch Conference 2025'te Ultralytics'ten öne çıkan başlıklar

Görüntüleri denoise etmek için öz denetimli öğrenmeyi kullanma

Ultralytics topluluğuna katılın