Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Mise en cache des prompts

Découvrez comment la mise en cache rapide optimise l'IA générative en réduisant la latence et les coûts. Découvrez son rôle dans les LLM et la vision par ordinateur en temps réel avec Ultralytics .

La mise en cache rapide est une stratégie d'optimisation avancée principalement utilisée dans l' IA générative afin de réduire considérablement les coûts et d'améliorer les temps de réponse lors de l'inférence. Dans le domaine des grands modèles linguistiques (LLM), le traitement du texte nécessite de convertir les entrées en séquences numériques appelées tokens. Souvent, une grande partie des données d'entrée, telles que des instructions système détaillées, un long document juridique ou une base de code, reste statique pour de nombreuses requêtes utilisateur différentes. Au lieu de retraiter ces sections inchangées pour chaque nouvelle requête, la mise en cache rapide stocke les états mathématiques précalculés (souvent appelés cache clé-valeur) dans la mémoire. Cela permet au moteur d'inférence d'éviter les calculs redondants, en concentrant la puissance de calcul uniquement sur les nouvelles parties dynamiques de l'invite de l'utilisateur.

Mécanismes et avantages

Les mécanismes fondamentaux de la mise en cache rapide reposent sur l'architecture des Transformers, qui traitent les données de manière séquentielle. En identifiant le préfixe répétitif d'une invite, le système peut charger le mécanisme d'attention correspondant mécanisme d'attention directement à partir de la mémoire haute vitesse.

  • Réduction de la latence : la mise en cache réduit considérablement la latence d'inférence, en particulier le temps jusqu'au premier token (TTFT). Cela garantit que les applications en temps réel, telles que les chatbots, semblent instantanées pour l'utilisateur.
  • Rentabilité : depuis les fournisseurs de cloud computing facturent souvent en fonction de la durée de calcul ou du traitement des jetons, le fait d'éviter le travail fastidieux lié au contexte statique permet de réaliser des économies substantielles.
  • Augmentation du débit : en libérant GPU , les serveurs peuvent traiter un plus grand nombre de requêtes simultanées, ce qui permet à l'ensemble du infrastructure de service de modèles plus évolutive.

Applications concrètes

La mise en cache instantanée transforme les secteurs qui s'appuient sur un contexte de données lourd.

  1. Assistants de codage : dans le domaine du développement logiciel, des outils tels que GitHub Copilot utilisent de grandes quantités de contexte provenant des fichiers ouverts et de la structure du référentiel de l'utilisateur. En mettant en cache les intégrations de la base de code, le modèle peut fournir des suggestions de complétion de code en temps réel sans réanalyser la structure complète du fichier de projet à chaque frappe.
  2. Analyse juridique et médicale : les professionnels interrogent souvent les agents IA à partir de documents statiques volumineux , tels que des archives de jurisprudence ou des dossiers médicaux. L'utilisation de la génération augmentée par la recherche (RAG), le système récupère les fragments de texte pertinents. La mise en cache des invites garantit que le contexte fondamental de ces documents récupérés n'a pas besoin d'être recalculé pour les questions de suivi, ce qui rationalise le flux de travail de réponse aux questions .

Pertinence dans la vision par ordinateur

Bien que traditionnellement associé au texte, le concept de mise en cache est essentiel dans le domaine de la vision multimodale vision par ordinateur (CV). Des modèles tels que YOLO permettent aux utilisateurs de detect à l'aide de requêtes textuelles à vocabulaire ouvert. Lorsqu'un utilisateur définit une liste de classes (par exemple, « personne, sac à dos, voiture »), le modèle calcule les intégrations textuelles pour ces classes. La mise en cache de ces intégrations évite au modèle de devoir réencoder les requêtes textuelles pour chaque image vidéo, ce qui permet une inférence en temps réel.

Distinguer les termes apparentés

  • Vs. Ingénierie des invites: L'ingénierie des invites implique un effort humain pour concevoir la saisie de texte optimale afin de guider le modèle. La mise en cache des invites est une optimisation informatique backend qui stocke le traitement de ce texte par la machine.
  • Vs. Réglage rapide: Le réglage rapide est un technique d'apprentissage par transfert qui met à jour des poids du modèle (prompts logiciels) afin d' adapter un modèle à une tâche. La mise en cache ne modifie pas les paramètres du modèle ; elle ne fait que mémoriser les états d'activation pendant l' exécution.

Exemple de code : mise en cache des intégrations de texte dans Vision

Le texte suivant Python Cet extrait de code illustre le concept de « mise en cache » d'une invite dans un contexte de vision à l'aide de la fonction ultralytics paquet. En définissant les classes une fois dans un YOLO modèle, les intégrations de texte sont calculées et stockées (conservées), ce qui permet au modèle de prédire efficacement plusieurs images sans re-traiter la description textuelle.

from ultralytics import YOLOWorld

# Load a YOLO-World model capable of open-vocabulary detection
model = YOLOWorld("yolov8s-world.pt")

# "Cache" the prompt: Define classes once.
# The model computes and stores text embeddings for these specific terms.
model.set_classes(["helmet", "reflective vest", "gloves"])

# Run inference repeatedly. The text prompt is not re-computed for each call.
# This mimics the efficiency gains of prompt caching in LLMs.
results_1 = model.predict("construction_site_1.jpg")
results_2 = model.predict("construction_site_2.jpg")

Pour gérer les ensembles de données et déployer ces modèles optimisés, la Ultralytics fournit un environnement complet pour l'annotation des données, l'entraînement de modèles de pointe tels que YOLO26, et surveiller les performances de déploiement sur divers appareils Edge AI .

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant