Découvrez comment la mise en cache rapide optimise l'IA générative en réduisant la latence et les coûts. Découvrez son rôle dans les LLM et la vision par ordinateur en temps réel avec Ultralytics .
La mise en cache rapide est une stratégie d'optimisation avancée principalement utilisée dans l' IA générative afin de réduire considérablement les coûts et d'améliorer les temps de réponse lors de l'inférence. Dans le domaine des grands modèles linguistiques (LLM), le traitement du texte nécessite de convertir les entrées en séquences numériques appelées tokens. Souvent, une grande partie des données d'entrée, telles que des instructions système détaillées, un long document juridique ou une base de code, reste statique pour de nombreuses requêtes utilisateur différentes. Au lieu de retraiter ces sections inchangées pour chaque nouvelle requête, la mise en cache rapide stocke les états mathématiques précalculés (souvent appelés cache clé-valeur) dans la mémoire. Cela permet au moteur d'inférence d'éviter les calculs redondants, en concentrant la puissance de calcul uniquement sur les nouvelles parties dynamiques de l'invite de l'utilisateur.
Les mécanismes fondamentaux de la mise en cache rapide reposent sur l'architecture des Transformers, qui traitent les données de manière séquentielle. En identifiant le préfixe répétitif d'une invite, le système peut charger le mécanisme d'attention correspondant mécanisme d'attention directement à partir de la mémoire haute vitesse.
La mise en cache instantanée transforme les secteurs qui s'appuient sur un contexte de données lourd.
Bien que traditionnellement associé au texte, le concept de mise en cache est essentiel dans le domaine de la vision multimodale vision par ordinateur (CV). Des modèles tels que YOLO permettent aux utilisateurs de detect à l'aide de requêtes textuelles à vocabulaire ouvert. Lorsqu'un utilisateur définit une liste de classes (par exemple, « personne, sac à dos, voiture »), le modèle calcule les intégrations textuelles pour ces classes. La mise en cache de ces intégrations évite au modèle de devoir réencoder les requêtes textuelles pour chaque image vidéo, ce qui permet une inférence en temps réel.
Le texte suivant Python Cet extrait de code illustre le concept de
« mise en cache » d'une invite dans un contexte de vision à l'aide de la fonction ultralytics paquet. En définissant les classes
une fois dans un YOLO modèle, les intégrations de texte
sont calculées et stockées (conservées), ce qui permet au modèle de prédire efficacement plusieurs images sans
re-traiter la description textuelle.
from ultralytics import YOLOWorld
# Load a YOLO-World model capable of open-vocabulary detection
model = YOLOWorld("yolov8s-world.pt")
# "Cache" the prompt: Define classes once.
# The model computes and stores text embeddings for these specific terms.
model.set_classes(["helmet", "reflective vest", "gloves"])
# Run inference repeatedly. The text prompt is not re-computed for each call.
# This mimics the efficiency gains of prompt caching in LLMs.
results_1 = model.predict("construction_site_1.jpg")
results_2 = model.predict("construction_site_2.jpg")
Pour gérer les ensembles de données et déployer ces modèles optimisés, la Ultralytics fournit un environnement complet pour l'annotation des données, l'entraînement de modèles de pointe tels que YOLO26, et surveiller les performances de déploiement sur divers appareils Edge AI .