Prompt Caching
İstem önbelleklemenin gecikmeyi ve maliyetleri azaltarak üretken AI'ı nasıl optimize ettiğini keşfet. Ultralytics YOLO26 ile LLM'lerdeki ve gerçek zamanlı bilgisayarlı görüdeki rolünü öğren.
İstem önbellekleme, özellikle üretken YZ alanında maliyetleri önemli ölçüde düşürmek ve çıkarım sırasında yanıt sürelerini iyileştirmek için kullanılan gelişmiş bir optimizasyon stratejisidir. Büyük Dil Modelleri (LLM) dünyasında metin işleme, girdilerin token olarak bilinen sayısal dizilere dönüştürülmesini gerektirir. Genellikle giriş verilerinin büyük bir kısmı (ayrıntılı bir sistem talimatı, uzun bir yasal belge veya bir kod tabanı gibi) birçok farklı kullanıcı sorgusunda sabit kalır. İstem önbellekleme, bu değişmeyen bölümleri her yeni istek için yeniden işlemek yerine, önceden hesaplanmış matematiksel durumları (genellikle Anahtar-Değer önbelleği olarak adlandırılır) bellekte saklar. Bu, çıkarım motorunun gereksiz hesaplamaları atlamasına ve bilgi işlem gücünü yalnızca kullanıcının istemindeki yeni, dinamik kısımlara odaklamasına olanak tanır.
Link to this sectionMekanizmalar ve Avantajlar#
İstem önbelleklemenin temel işleyişi, verileri sırayla işleyen Transformer mimarisine dayanır. Bir istemin tekrarlayan önekini tanımlayarak sistem, ilgili dikkat mekanizması durumlarını doğrudan yüksek hızlı bellekten yükleyebilir.
- Azaltılmış Gecikme Süresi: Önbellekleme, çıkarım gecikmesini, özellikle de İlk Token'a Kadar Süreyi (TTFT) önemli ölçüde düşürür. Bu, etkileşimli sohbet botları gibi gerçek zamanlı uygulamaların kullanıcıya anlık gelmesini sağlar.
- Maliyet Verimliliği: Bulut Bilişim sağlayıcıları genellikle bilgi işlem süresi veya token işleme üzerinden faturalandırma yaptığı için, statik bağlam adına ağır yükü atlamak önemli tasarruflar sağlar.
- Artırılmış Verimlilik: GPU kaynaklarını serbest bırakarak, sunucular daha yüksek hacimli eşzamanlı istekleri işleyebilir, bu da tüm model sunumu altyapısını daha ölçeklenebilir hale getirir.
Link to this sectionGerçek Dünya Uygulamaları#
İstem önbellekleme, yoğun veri bağlamına dayanan endüstrileri dönüştürüyor.
-
Kodlama Asistanları: Yazılım geliştirmede, GitHub Copilot gibi araçlar, kullanıcının açık dosyalarından ve depo yapısından gelen büyük miktarda bağlamı kullanır. Kod tabanının gömülülerini (embeddings) önbelleğe alarak model, her tuş vuruşunda tüm proje dosya yapısını yeniden analiz etmeden gerçek zamanlı kod tamamlama önerileri sunabilir.
-
Hukuki ve Tıbbi Analiz: Profesyoneller genellikle YZ Temsilcilerine, vaka hukuku arşivleri veya hasta geçmişi kayıtları gibi devasa statik belgelere karşı sorgular yöneltir. RAG (Retrieval-Augmented Generation) kullanarak sistem ilgili metin parçalarını alır. İstem önbellekleme, bu alınan belgelerin temel bağlamının takip soruları için yeniden hesaplanması gerekmemesini sağlayarak Soru Cevaplama iş akışını kolaylaştırır.
Link to this sectionBilgisayarlı Görüde Alaka Düzeyi#
Geleneksel olarak metinle ilişkilendirilse de, önbellekleme kavramı çok modlu Bilgisayarlı Görü (CV) alanında hayati öneme sahiptir. YOLO-World gibi modeller, kullanıcıların açık uçlu metin istemlerini kullanarak nesneleri tespit etmesine olanak tanır. Bir kullanıcı bir sınıf listesi tanımladığında (örneğin: "kişi, sırt çantası, araba"), model bu sınıflar için metin gömülülerini hesaplar. Bu gömülüleri önbelleğe almak, modelin her bir video karesi için metin istemlerini yeniden kodlama ihtiyacını ortadan kaldırarak yüksek hızlı Gerçek Zamanlı Çıkarım sağlar.
Link to this sectionİlgili Terimlerin Ayrıştırılması#
- İstem Mühendisliğine Karşı: İstem mühendisliği, modeli yönlendirmek için en uygun metin girdisini tasarlama konusundaki insani çabayı içerir. İstem önbellekleme ise bu metnin makine tarafından işlenmesini depolayan bir arka uç hesaplama optimizasyonudur.
- Vs. Prompt Tuning: Prompt tuning is a Transfer Learning technique that updates specific Model Weights (soft prompts) to adapt a model to a task. Caching does not change the model's parameters; it only memorizes activation states during runtime.
Link to this sectionKod Örneği: Görüş Bağlamında Metin Gömülülerini Önbellekleme#
Aşağıdaki Python kod parçacığı, ultralytics paketini kullanarak bir görüntü bağlamında istem "önbellekleme" kavramını göstermektedir. Bir YOLO-World modelinde sınıfları bir kez ayarlayarak, metin gömülüleri hesaplanır ve saklanır (kalıcı hale getirilir), böylece model metin açıklamasını yeniden işlemeden birden fazla görüntü üzerinde verimli bir şekilde tahmin yapabilir.
from ultralytics import YOLOWorld
# Load a YOLO-World model capable of open-vocabulary detection
model = YOLOWorld("yolov8s-world.pt")
# "Cache" the prompt: Define classes once.
# The model computes and stores text embeddings for these specific terms.
model.set_classes(["helmet", "reflective vest", "gloves"])
# Run inference repeatedly. The text prompt is not re-computed for each call.
# This mimics the efficiency gains of prompt caching in LLMs.
results_1 = model.predict("construction_site_1.jpg")
results_2 = model.predict("construction_site_2.jpg")Veri kümelerini yönetmek ve bu optimize edilmiş modelleri dağıtmak için Ultralytics Platformu, verileri etiketlemek, YOLO26 gibi son teknoloji modelleri eğitmek ve çeşitli Uç YZ (Edge AI) cihazlarında dağıtım performansını izlemek için kapsamlı bir ortam sağlar.






