Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Compression instantanée

Découvrez comment la compression des prompts optimise l'efficacité de l'IA. Apprenez dès aujourd'hui à réduire l'utilisation de tokens dans les modèles de langage à grande échelle (LLM), à diminuer les coûts et à accélérer la vitesse d'inférence grâce à Ultralytics .

La compression des invites est une technique d'optimisation avancée conçue pour réduire la longueur et la complexité du texte d'entrée fourni aux grands modèles linguistiques (LLM) et aux modèles multimodaux. En supprimant de manière algorithmique les mots redondants, le contexte non pertinent et les mots vides tout en préservant le sens sémantique essentiel, la compression des invites permet aux systèmes d'IA de traiter l'information plus efficacement. Cette méthode est de plus en plus cruciale pour minimiser les coûts de calcul, réduire la latence d'inférence et empêcher les modèles de dépasser leur fenêtre de contexte maximale.

Comment fonctionne la compression instantanée

Au niveau architectural, la compression des invites fait souvent appel à des modèles spécialisés plus légers ou à des algorithmes fondés sur la théorie de l'information pour évaluer l'importance de chaque token dans une invite donnée. Des techniques telles que la fusion de tokens et l'élagage basé sur l'entropie permettent d'identifier et de supprimer les tokens qui contribuent peu au sens global. Cela garantit que l'entrée finale ne contient que les informations les plus denses .

Des recherches récentes menées par des organismes de référence montrent que les prompts fortement compressés permettent de maintenir les performances lors de tâches de raisonnement complexes tout en réduisant considérablement la consommation de tokens. Pour les développeurs qui intègrent l'IA dans des applications évolutives, le respect des directives d'optimisation des prompts d'OpenAI et l'utilisation de frameworks de compression constituent une pratique recommandée courante pour un déploiement efficace.

Applications concrètes

La compression instantanée apporte une valeur ajoutée immédiate dans les situations nécessitant le traitement rapide de grandes quantités de données textuelles ou visuelles :

  • Génération assistée par la récupération (RAG): Dans les applications de recherche d'entreprise, les pipelines RAG récupèrent souvent des dizaines de documents volumineux pour répondre à une seule requête d'utilisateur. Des algorithmes de compression des invites réduisent ces documents récupérés, les condensant en résumés factuels concis avant de les transmettre au modèle de génération. Cela évite le débordement de tokens et accélère l'inférence en temps réel.
  • Agents IA autonomes: les agents et les chatbots doivent conserver une mémoire à long terme des interactions avec les utilisateurs. Au lieu de transmettre l'intégralité de l'historique des conversations à chaque nouvelle requête, des techniques de compression résument les échanges antérieurs, garantissant ainsi que l'agent garde le sens du contexte sans entraîner de coûts de calcul exponentiels.

Compression instantanée vs techniques apparentées

Pour mettre en place des pipelines MLOps (Machine Learning Operations) robustes, il est important de distinguer la compression des invites des concepts connexes :

  • Contrairement à la mise en cache des invites: la mise en cache conserve les états de calcul internes du texte précédemment traité afin d'éviter de les recalculer. La compression, en revanche, modifie et raccourcit activement le texte d'entrée lui-même avant tout traitement.
  • Par opposition à l'ingénierie des invites: L'ingénierie des invites est l'art, mené par l'homme, de concevoir des instructions efficaces. La compression est une réduction automatisée et algorithmique de ces instructions.
  • Par opposition à l'enrichissement des requêtes: L'enrichissement élargit une requête en y ajoutant du contexte externe, tandis que la compression la réduit. Ces deux techniques sont souvent utilisées conjointement : un système peut enrichir une requête avec des résultats provenant d'une base de données, puis compresser la charge utile finale avant l'inférence.

Mise en œuvre dans le domaine de la vision par ordinateur

En vision par ordinateur (CV), les principes de compression rapide s'appliquent lors de l'utilisation de modèles à vocabulaire ouvert qui acceptent des requêtes textuelles pour identifier des objets. Le fait de conserver des descriptions de classes concis permet un encodage textuel plus rapide et réduit la charge mémoire.

Dans les environnements de production à classes fixes où la rapidité est primordiale, les développeurs passent généralement de modèles basés sur des invites textuelles à des modèles à architecture fixe hautement optimisés, tels que Ultralytics . Vous pouvez gérer efficacement les ensembles de données et entraîner ces modèles de pointe à l'aide de la Ultralytics .

from ultralytics import YOLO

# Load an open-vocabulary YOLO-World model
model = YOLO("yolov8s-world.pt")

# Principle of prompt compression: Use concise, distilled class names
# instead of lengthy, complex descriptions for faster text encoding
compressed_prompts = ["helmet", "vest", "forklift"]
model.set_classes(compressed_prompts)

# Run inference with the optimized class list
results = model.predict("https://ultralytics.com/images/bus.jpg")
results[0].show()

Construisons ensemble l'avenir de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique