Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

İstem Önbelleğe Alma

Gecikmeyi ve maliyetleri azaltarak hızlı önbelleklemenin üretken yapay zekayı nasıl optimize ettiğini keşfedin. LLM çıkarımını ve YOLO26 gibi görme modellerini nasıl hızlandırabileceğinizi öğrenin.

Hızlı önbellekleme, öncelikle jeneratif yapay zeka kullanılan gelişmiş bir optimizasyon stratejisidir ve çıkarım sırasında maliyetleri önemli ölçüde azaltır ve yanıt sürelerini iyileştirir. Büyük Dil Modelleri (LLM), metin işleme, girdilerin tokenolarak bilinen sayısal dizilere dönüştürülmesini gerektirir. Çoğu zaman, ayrıntılı sistem talimatları, uzun yasal belgeler veya kod tabanı gibi girdi verilerinin büyük bir kısmı, birçok farklı kullanıcı sorgusunda sabit kalır. Her yeni istek için bu değişmeyen bölümleri yeniden işlemek yerine , prompt caching önceden hesaplanmış matematiksel durumları (genellikle Anahtar-Değer önbelleği olarak adlandırılır) bellekte depolar. Bu, çıkarım motorunun gereksiz hesaplamaları atlamasına ve hesaplama gücünü yalnızca kullanıcının komut isteminin yeni, dinamik kısımlarına odaklamasına olanak tanır.

Mekanizmalar ve Faydalar

Hızlı önbelleklemenin temel mekanizması, Transformers'ın mimarisine dayanır. Sistem, prompt'un tekrarlayan önekini tanımlayarak, ilgili dikkat mekanizmasını durumlarını doğrudan yüksek hızlı bellekten yükleyebilir.

  • Azaltılmış Gecikme Süresi: Önbellekleme, çıkarım gecikmesini, özellikle İlk Token Süresi (TTFT) gecikmesini önemli ölçüde azaltır. Bu, etkileşimli sohbet robotlarıgibi gerçek zamanlı uygulamaların kullanıcıya anında hissettirilmesini sağlar.
  • Maliyet Verimliliği: Bulut Bilişim sağlayıcıları genellikle hesaplama süresi veya token işleme temelinde faturalandırma yaptığından, statik bağlam için ağır işleri atlamak önemli tasarruflar sağlar.
  • Artan Verim: Serbest bırakarak GPU kaynaklarını serbest bırakarak, sunucular daha yüksek hacimde eşzamanlı istekleri işleyebilir ve tüm model sunum altyapısını daha ölçeklenebilir hale getirir.

Gerçek Dünya Uygulamaları

Hızlı önbellekleme, yoğun veri bağlamına dayanan sektörleri dönüştürüyor.

  1. Kodlama Asistanları: Yazılım geliştirmede, GitHub Copilot kullanıcının açık dosyalarından ve depo yapısından büyük miktarda bağlam kullanır. kod tabanının gömülü , model her tuş vuruşu için tüm proje dosya yapısını yeniden analiz etmeden gerçek zamanlı kod tamamlama önerileri sunabilir. .
  2. Hukuki ve Tıbbi Analiz: Profesyoneller sıklıkla AI ajanlarını 'ni sorgularlar. örneğin içtihat hukuku arşivleri veya hasta geçmişi kayıtları gibi büyük statik belgeler. Geri Alma ile Güçlendirilmiş Üretim (RAG), sistem ilgili metin parçalarını geri getirir. Hızlı önbellekleme, bulunan bu geri getirilen belgelerin temel bağlamının takip soruları için yeniden hesaplanmasına gerek kalmamasını sağlayarak, Soru Yanıtlama iş akışını kolaylaştırır.

Bilgisayar Görüntüsünde Alaka

Geleneksel olarak metinle ilişkilendirilen önbellekleme kavramı, çok modlu Bilgisayar Görme (CV). YOLO-World gibi modeller YOLO kullanıcıların açık sözlük metin komutlarını kullanarak detect olanak tanır. Bir kullanıcı bir sınıf listesi tanımladığında (örneğin, "kişi, sırt çantası, araba"), model bu sınıflar için metin gömülerini hesaplar. Bu gömüler önbelleğe alınarak model, her bir video karesi için metin komutlarını yeniden kodlamak zorunda kalmaz ve yüksek hızlı Gerçek Zamanlı Çıkarım.

İlgili Terimleri Ayırt Etme

  • Vs. Prompt Mühendisliği: Prompt mühendisliği, modeli yönlendirmek için en uygun metin girişini tasarlamak için insan çabasını içerir. Prompt önbellekleme , makinenin o metni işleme sürecini depolayan bir arka uç hesaplama optimizasyonudur.
  • Vs. Prompt Tuning: Prompt tuning bir Transfer Öğrenme tekniğidir ve belirli Model Ağırlıkları (yumuşak istemler) güncelleyen bir transfer öğrenimi tekniğidir. Önbellekleme, modelin parametrelerini değiştirmez; yalnızca çalışma süresi boyunca aktivasyon durumlarını hafızaya alır.

Kod Örneği: Görselde Metin Gömme Öbeklerini Önbelleğe Alma

Aşağıdakiler Python snippet, "önbellekleme" kavramını gösterir. ultralytics paket. Sınıfları bir kez YOLO model, metin gömme hesaplanır ve saklanır (kalıcı hale getirilir), böylece model metin açıklamasını yeniden işlemeksizin birden fazla görüntü üzerinde verimli bir şekilde tahminde bulunabilir .

from ultralytics import YOLOWorld

# Load a YOLO-World model capable of open-vocabulary detection
model = YOLOWorld("yolov8s-world.pt")

# "Cache" the prompt: Define classes once.
# The model computes and stores text embeddings for these specific terms.
model.set_classes(["helmet", "reflective vest", "gloves"])

# Run inference repeatedly. The text prompt is not re-computed for each call.
# This mimics the efficiency gains of prompt caching in LLMs.
results_1 = model.predict("construction_site_1.jpg")
results_2 = model.predict("construction_site_2.jpg")

Veri kümelerini yönetmek ve bu optimize edilmiş modelleri dağıtmak için Ultralytics , verileri açıklama, YOLO26 gibi son teknoloji modelleri eğitme ve YOLO26gibi en son teknoloji modelleri eğitmek ve çeşitli Edge AI cihazlarındaki

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın