Prompt Compression
Découvre comment la compression de prompts optimise l'efficacité de l'IA. Apprends à réduire l'utilisation de jetons LLM, à diminuer les coûts et à booster la vitesse d'inférence avec Ultralytics YOLO26 dès aujourd'hui.
La compression de prompts est une technique d'optimisation avancée conçue pour réduire la longueur et la complexité du texte d'entrée fourni aux Large Language Models (LLMs) et aux modèles multi-modaux. En supprimant algorithmiquement les mots redondants, le contexte non pertinent et les mots vides tout en préservant le sens sémantique fondamental, la compression de prompts permet aux systèmes d'IA de traiter les informations plus efficacement. Cette méthode est de plus en plus critique pour minimiser les coûts de calcul, réduire la latence d'inférence et empêcher les modèles de dépasser leur fenêtre de contexte maximale.
Link to this sectionComment fonctionne la compression de prompts#
Au niveau architectural, la compression de prompts utilise souvent des modèles plus petits et spécialisés ou des algorithmes de théorie de l'information pour évaluer l'importance de chaque jeton dans un prompt donné. Des techniques comme la fusion de jetons et l'élagage basé sur l'entropie identifient et suppriment les jetons qui contribuent peu au sens global. Cela garantit que l'entrée finale contient uniquement les informations les plus denses.
Des recherches récentes menées par des organisations faisant autorité soulignent que des prompts hautement compressés peuvent maintenir les performances sur des tâches de raisonnement complexes tout en réduisant considérablement la consommation de jetons. Pour les développeurs intégrant l'IA dans des applications évolutives, respecter les directives d'optimisation de prompts d'OpenAI et tirer parti des frameworks de compression est une bonne pratique standard pour un déploiement efficace.
Link to this sectionApplications concrètes#
La compression de prompts apporte une valeur immédiate dans les scénarios nécessitant le traitement rapide de données textuelles ou visuelles étendues :
- Retrieval-Augmented Generation (RAG) : Dans les applications de recherche en entreprise, les pipelines RAG récupèrent souvent des dizaines de documents longs pour répondre à une seule requête utilisateur. Les algorithmes de compression de prompts réduisent ces documents récupérés, les distillant en résumés factuels concis avant de les transmettre au modèle de génération. Cela évite le débordement de jetons et accélère l'inférence en temps réel.
- Agents IA autonomes : Les agents et les chatbots doivent conserver une mémoire à long terme des interactions des utilisateurs. Au lieu de transmettre l'historique complet de la conversation dans chaque nouvelle requête, les techniques de compression résument les échanges précédents, garantissant que l'agent reste conscient du contexte sans engendrer des coûts de calcul exponentiels.
Link to this sectionCompression de prompts vs techniques connexes#
Pour construire des pipelines de machine learning operations (MLOps) robustes, il est important de distinguer la compression de prompts des concepts connexes :
- Vs. Prompt Caching : Le cache stocke les états de calcul internes du texte précédemment traité pour éviter de les recalculer. La compression, quant à elle, modifie et raccourcit activement le texte d'entrée lui-même avant que tout traitement n'ait lieu.
- Vs. Prompt Engineering : Le prompt engineering est l'art, piloté par l'humain, de concevoir des instructions efficaces. La compression est une réduction algorithmique automatisée de ces instructions.
- Vs. Enrichissement de prompts : L'enrichissement étend un prompt en ajoutant un contexte externe, alors que la compression le réduit. Ils sont souvent utilisés ensemble : un système peut enrichir un prompt avec des résultats de base de données, puis compresser la charge utile finale avant l'inférence.
Link to this sectionMise en œuvre en vision par ordinateur#
En vision par ordinateur (CV), les principes de compression de prompts s'appliquent lors de l'utilisation de modèles à vocabulaire ouvert qui acceptent des requêtes textuelles pour identifier des objets. Garder les descriptions de classes concises garantit un encodage textuel plus rapide et réduit la charge mémoire.
Pour les environnements de production à classes fixes où la vitesse est primordiale, les développeurs passent généralement des modèles basés sur des prompts textuels à des modèles à architecture fixe hautement optimisés comme Ultralytics YOLO26. Tu peux gérer efficacement tes jeux de données et entraîner ces modèles de pointe en utilisant la plateforme Ultralytics.
from ultralytics import YOLO
# Load an open-vocabulary YOLO-World model
model = YOLO("yolov8s-world.pt")
# Principle of prompt compression: Use concise, distilled class names
# instead of lengthy, complex descriptions for faster text encoding
compressed_prompts = ["helmet", "vest", "forklift"]
model.set_classes(compressed_prompts)
# Run inference with the optimized class list
results = model.predict("https://ultralytics.com/images/bus.jpg")
results[0].show()





