Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

İstem Önbelleğe Alma

İstem önbelleğe alma ile yapay zeka verimliliğini artırın! Bu güçlü tekniği kullanarak gecikmeyi nasıl azaltacağınızı, maliyetleri nasıl düşüreceğinizi ve yapay zeka uygulamalarını nasıl ölçeklendireceğinizi öğrenin.

İstemi önbelleğe alma, aşağıdakilerin dağıtımında kullanılan özel bir optimizasyon tekniğidir Büyük Dil Modelleri (LLM'ler) çıkarım gecikmesini önemli ölçüde azaltır ve hesaplama maliyetleri. Üretken yapay zeka bağlamında, Bir bilgi isteminin işlenmesi, metnin sayısal temsillere dönüştürülmesini ve bunlar arasındaki ilişkilerin hesaplanmasını içerir. kullanarak her belirteci dikkat mekanizması. Önemli bir kısmı Uzun bir sistem talimatı veya bir dizi örnek gibi bir bilgi isteminin birden fazla istekte sabit kalması, bilgi istemi önbelleğe alma, sistemin bu statik durumun ara matematiksel durumlarını (özellikle Anahtar-Değer çiftlerini) saklamasına olanak tanır metin. Her yeni sorgu için bu durumları yeniden hesaplamak yerine çıkarım motoru bunları bellekten alır, Modelin işlem gücünü yalnızca girdinin yeni, dinamik kısımlarına odaklamasını sağlar.

Mekanizmalar ve Faydalar

Hızlı önbelleğe almanın arkasındaki temel mekanizma bağlam penceresi verimli bir şekilde. Bir LLM işlediğinde girdisine kadar modelin metin anlayışını temsil eden bir "KV Cache" (Anahtar-Değer Önbelleği) oluşturur. o nokta. Komut istemi önbelleğe alma, komut isteminin ilk segment (önek) yeniden kullanılabilir bir varlık olarak ele alır.

  • Gecikme Azaltma: Önbelleğe alınan önek için hesaplamayı atlayarak İlk Jetona Kadar Geçen Süre (TTFT) büyük ölçüde kısalır, bu da aşağıdaki durumlarda daha hızlı yanıtlara yol açar gerçek zamanlı çıkarım senaryoları.
  • Maliyet Verimliliği: O zamandan beri Grafik İşleme Birimleri (GPU'lar) gereksiz belirteçleri işlemek için daha az zaman harcar, istek başına gereken toplam bilgi işlem kaynakları azalır ve işletmenin operasyonel giderleri yapay zeka (AI) hizmetleri.
  • Artan Verim: Sistemler daha yüksek hacimde eşzamanlı talepleri karşılayabilir çünkü Her bir talep için hesaplama yükü en aza indirilir.

Gerçek Dünya Uygulamaları

İstemli önbelleğe alma, geliştiricilerin derleme ve ölçeklendirme yöntemlerini dönüştürüyor makine öğrenimi (ML) uygulamaları, özellikle de ağır metin işlemeyi içerenler.

  1. Bağlam Farkında Kodlama Asistanları: Kod tamamlama sağlayan araçlarda, kodun tüm içeriği mevcut dosya ve başvurulan kütüphaneler genellikle istem bağlamı olarak hizmet eder. Bu "önek" binlerce olabilir uzunluğundadır. İstemi önbelleğe alma özelliğini kullanarak, asistan dosyanın durumunu önbelleğe alabilir. Geliştirici yazdıkça (ekleme yeni belirteçler), model tüm dosya yapısını yeniden okumak yerine yalnızca yeni karakterleri işler ve modern sistemlerde görülen saniyenin altındaki tepki süreleri entegre geliştirme ortamları (IDE'ler).
  2. Belge Analizi ve Soru-Cevap: Elli sayfalık bir PDF hakkındaki soruları yanıtlamak üzere tasarlanmış bir sistem düşünün Kılavuz. Kullanma Retrieval-Augmented Generation (RAG), kılavuz metni modele beslenir. Önbelleğe alma olmadan, bir kullanıcı her soru sorduğunda, model tüm kılavuzu ve soruyu yeniden işlemek. Hızlı önbelleğe alma ile, ağır hesaplama işi kılavuz bir kez yapılır ve saklanır. Sonraki sorular bu önbelleğe alınmış duruma eklenerek soru cevaplama etkileşimi akışkan ve Etkili.

Teknik Uygulama Konsepti

Bilgi istemi önbelleği LLM çıkarım sunucularına dahili olsa da, veri yapısını anlamak kavramı netleştirmeye yardımcı olur. "Önbellek" esasen dikkat durumlarını temsil eden tensörleri (çok boyutlu diziler) depolar.

Aşağıdaki Python kod parçacığı torch bir Anahtar-Değer önbellek tensor şeklini ve kavramını göstermektedir, Bu, hızlı önbelleğe alma sırasında depolanan ve yeniden kullanılan şeydir:

import torch

# Simulate a KV Cache tensor for a transformer model
# Shape: (Batch_Size, Num_Heads, Sequence_Length, Head_Dim)
batch_size, num_heads, seq_len, head_dim = 1, 32, 1024, 128

# Create a random tensor representing the pre-computed state of a long prompt
kv_cache_state = torch.randn(batch_size, num_heads, seq_len, head_dim)

print(f"Cached state shape: {kv_cache_state.shape}")
print(f"Number of cached parameters: {kv_cache_state.numel()}")
# In practice, this tensor is passed to the model's forward() method
# to skip processing the first 1024 tokens.

İlgili Kavramları Ayırt Etme

Hızlı önbelleğe alma işlemini diğer terimlerden ayırmak önemlidir. Doğru optimizasyon stratejisini uygulamak için Ultralytics sözlüğü.

  • Vs. İpucu Mühendisliği: İstem mühendisliği, metin girdisinin içeriğinin ve yapısının, aşağıdakileri ortaya çıkaracak şekilde hazırlanmasına odaklanır en iyi yanıt. İstemi önbelleğe alma, bu girdinin hesaplama yürütmesini optimize etmeye odaklanır.
  • Vs. Anlamsal Arama: Anlamsal arama (genellikle önbelleğe alma çıktılarında kullanılır) önceden yazılmış bir sorgu döndürmek için benzer sorguları arar yanıt. İstemi önbelleğe alma, benzersiz bir yanıt oluşturmak için modeli çalıştırmaya devam eder; sadece girdi bağlamının okunması.
  • Vs. İnce Ayar: İnce ayar kalıcı olarak değiştirir Yeni bilgileri öğrenmek için model ağırlıkları. İstem önbelleğe alma modelin ağırlıklarını değiştirmez; belirli bir girdinin aktivasyon durumlarını geçici olarak saklar Oturum.
  • Vs. Model Niceleme: Niceleme, bellekten tasarruf etmek ve genel olarak çıkarımı hızlandırmak için model parametrelerinin hassasiyetini azaltır. İstemi önbelleğe alma, özellikle giriş verileri için bir çalışma zamanı optimizasyonudur ve genellikle aşağıdakilerle birlikte kullanılır kuantizasyon.

İstemi önbelleğe alma özelliği Doğal Dil İşleme (NLP), verimlilik ilkeleri evrenseldir. İçinde bilgisayarla görme (CV), gibi modeller YOLO11 hız için mimari olarak optimize edilmiştir ve nesne algılama görevlerinin yüksek çerçeve oranlarını, otoregresif dil modellerinde kullanılan aynı tür durum önbelleğine ihtiyaç duymadan hesaplayabilir. Bununla birlikte çok modlu modeller, video işlemek için gelişir ve metinleri bir araya getirerek, görsel belirteçleri önbelleğe alma, aşağıdaki makalelerde açıklanan gelişmekte olan bir araştırma alanı haline gelmektedir arXiv.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın