Gecikmeyi ve maliyetleri azaltarak hızlı önbelleklemenin üretken yapay zekayı nasıl optimize ettiğini keşfedin. LLM çıkarımını ve YOLO26 gibi görme modellerini nasıl hızlandırabileceğinizi öğrenin.
Hızlı önbellekleme, öncelikle jeneratif yapay zeka kullanılan gelişmiş bir optimizasyon stratejisidir ve çıkarım sırasında maliyetleri önemli ölçüde azaltır ve yanıt sürelerini iyileştirir. Büyük Dil Modelleri (LLM), metin işleme, girdilerin tokenolarak bilinen sayısal dizilere dönüştürülmesini gerektirir. Çoğu zaman, ayrıntılı sistem talimatları, uzun yasal belgeler veya kod tabanı gibi girdi verilerinin büyük bir kısmı, birçok farklı kullanıcı sorgusunda sabit kalır. Her yeni istek için bu değişmeyen bölümleri yeniden işlemek yerine , prompt caching önceden hesaplanmış matematiksel durumları (genellikle Anahtar-Değer önbelleği olarak adlandırılır) bellekte depolar. Bu, çıkarım motorunun gereksiz hesaplamaları atlamasına ve hesaplama gücünü yalnızca kullanıcının komut isteminin yeni, dinamik kısımlarına odaklamasına olanak tanır.
Hızlı önbelleklemenin temel mekanizması, Transformers'ın mimarisine dayanır. Sistem, prompt'un tekrarlayan önekini tanımlayarak, ilgili dikkat mekanizmasını durumlarını doğrudan yüksek hızlı bellekten yükleyebilir.
Hızlı önbellekleme, yoğun veri bağlamına dayanan sektörleri dönüştürüyor.
Geleneksel olarak metinle ilişkilendirilen önbellekleme kavramı, çok modlu Bilgisayar Görme (CV). YOLO-World gibi modeller YOLO kullanıcıların açık sözlük metin komutlarını kullanarak detect olanak tanır. Bir kullanıcı bir sınıf listesi tanımladığında (örneğin, "kişi, sırt çantası, araba"), model bu sınıflar için metin gömülerini hesaplar. Bu gömüler önbelleğe alınarak model, her bir video karesi için metin komutlarını yeniden kodlamak zorunda kalmaz ve yüksek hızlı Gerçek Zamanlı Çıkarım.
Aşağıdakiler Python snippet,
"önbellekleme" kavramını gösterir. ultralytics paket. Sınıfları
bir kez YOLO model, metin
gömme hesaplanır ve saklanır (kalıcı hale getirilir), böylece model metin açıklamasını yeniden işlemeksizin birden fazla görüntü üzerinde verimli bir şekilde tahminde bulunabilir
.
from ultralytics import YOLOWorld
# Load a YOLO-World model capable of open-vocabulary detection
model = YOLOWorld("yolov8s-world.pt")
# "Cache" the prompt: Define classes once.
# The model computes and stores text embeddings for these specific terms.
model.set_classes(["helmet", "reflective vest", "gloves"])
# Run inference repeatedly. The text prompt is not re-computed for each call.
# This mimics the efficiency gains of prompt caching in LLMs.
results_1 = model.predict("construction_site_1.jpg")
results_2 = model.predict("construction_site_2.jpg")
Veri kümelerini yönetmek ve bu optimize edilmiş modelleri dağıtmak için Ultralytics , verileri açıklama, YOLO26 gibi son teknoloji modelleri eğitme ve YOLO26gibi en son teknoloji modelleri eğitmek ve çeşitli Edge AI cihazlarındaki
