Connectez-vous à YOLO Vision 2025 !
25 septembre 2025
10:00 — 18:00, heure d'été britannique
Événement hybride
Yolo Vision 2024
Glossaire

Ingénierie des invites (Prompt Engineering)

Maîtrisez l'art de l'ingénierie des invites pour guider les modèles d'IA tels que les LLM afin d'obtenir des résultats précis et de haute qualité dans le contenu, le service client, etc.

L'ingénierie des invites est l'art et la science de concevoir des entrées (invites) efficaces pour guider les modèles d'intelligence artificielle (IA), en particulier les grands modèles linguistiques (LLM), vers la génération des sorties souhaitées. C'est analogue au fait d'être un communicateur compétent avec une IA, sachant précisément quoi dire et comment le dire pour obtenir la meilleure réponse possible. Cette pratique est cruciale car la performance, la pertinence et la qualité de la sortie d'un modèle d'IA sont très sensibles à la façon dont une requête est formulée. Une ingénierie des invites efficace permet aux utilisateurs d'exploiter pleinement le potentiel des modèles de fondation puissants pour un large éventail de tâches.

Comment fonctionne l’ingénierie des invites

Le cœur de l'ingénierie des prompts est de structurer une entrée qui fournit un contexte clair et suffisant pour le modèle. Alors qu'une simple question peut donner une réponse de base, un prompt bien conçu peut contrôler le ton, le format et la complexité. Les composantes clés d'un prompt avancé peuvent inclure :

  • Instruction : Une directive claire et spécifique indiquant au modèle la tâche à effectuer (par exemple, "Résumez l'article suivant en trois points").
  • Contexte : Fournir des informations générales ou des données pertinentes que le modèle doit utiliser pour éclairer sa réponse.
  • Persona : Attribuer un rôle à l'IA, ce qui influence le ton et le style de la sortie (par exemple, "Agir en tant qu'expert analyste financier").
  • Format : Spécification de la structure de sortie souhaitée, telle qu'une liste, un objet JSON ou un style d'écriture spécifique.
  • Exemples : Inclure des exemples du format d'entrée et de sortie souhaité, une technique connue sous le nom d'apprentissage à partir de quelques exemples, aide à guider la réponse du modèle. Une ressource complète pour ces techniques est disponible dans le Guide d'amorçage.

Applications concrètes

  1. Automatisation du support client : Pour garantir la cohérence et l'exactitude de la marque, une entreprise peut utiliser l'ingénierie des prompts pour guider son chatbot de support. Un prompt peut demander à l'IA d'adopter un ton amical et serviable, d'utiliser une base de connaissances interne pour répondre aux questions sur les produits et de définir un protocole clair pour savoir quand transférer une conversation à un agent humain. Cela contrôle le comportement de l'IA, l'empêchant de donner des informations incorrectes ou d'interagir avec les clients d'une manière non conforme à la marque.

  2. Génération de contenu créatif : Dans les modèles texte-image comme Midjourney ou DALL-E 3 d'OpenAI, l'invite est l'outil principal de création. Une invite simple comme « une photo d'une voiture » produira un résultat générique. Cependant, une invite détaillée comme « Une voiture de sport rouge vintage des années 1960 dévalant une autoroute côtière au coucher du soleil, style photoréaliste, éclairage cinématographique, résolution 8K » fournit des instructions spécifiques sur le sujet, le cadre, le style et la qualité, ce qui donne une image très personnalisée et visuellement époustouflante.

Pertinence dans la vision par ordinateur

Bien qu'elle soit née dans le domaine du traitement du langage naturel (TAL), l'ingénierie des invites est de plus en plus pertinente dans le domaine de la vision par ordinateur (CV). Ceci est dû au développement de modèles multimodaux capables de traiter simultanément du texte et des images. Les modèles tels que CLIP et les détecteurs à vocabulaire ouvert tels que YOLO-World peuvent effectuer des tâches telles que la détection d'objets sur la base de descriptions textuelles arbitraires. Pour ces modèles, la création d'une invite textuelle efficace (par exemple, "détecter tous les 'vélos' mais ignorer les 'motos'") est une forme d'ingénierie des invites essentielle pour guider ces modèles de langage de vision. Les plateformes comme Ultralytics HUB facilitent l'interaction avec différents modèles, où la définition des tâches par le biais d'interfaces peut bénéficier des principes de l'ingénierie des invites.

Ingénierie des invites : comparaison avec les concepts connexes

Il est important de distinguer l'ingénierie des prompts des autres concepts d'apprentissage automatique :

  • Affinage: Cela implique de mettre à jour les poids d'un modèle en poursuivant le processus d'entraînement sur un nouvel ensemble de données. L'ingénierie des prompts, en revanche, ne modifie pas le modèle lui-même, mais guide plutôt le comportement du modèle existant au moment de l'inférence.
  • Réglage d'invite (Prompt Tuning) : Méthode d'ajustement fin à faible nombre de paramètres (PEFT), le réglage d'invite implique l'apprentissage d'un petit ensemble d'intégrations d'« invite logicielle » qui sont ajoutées au début de l'entrée. Il automatise la création d'invites par le biais de l'apprentissage, tandis que l'ingénierie des invites est le processus manuel de création d'« invites matérielles » textuelles.
  • Invite de type chaîne de pensée (CoT) : La CoT est une technique spécifique d'ingénierie d'invite où une instruction comme « pensez étape par étape » est ajoutée à l'invite. Cela encourage le modèle à décomposer les problèmes complexes en étapes de raisonnement intermédiaires, ce qui conduit souvent à des résultats plus précis, comme indiqué dans l'article de recherche original de Google AI.
  • Chaînage d'invites (Prompt Chaining) : Cette technique consiste à diviser une tâche complexe en plusieurs invites séquentielles, où la sortie d'une étape est l'entrée de la suivante. L'ingénierie des invites (prompt engineering) est la pratique plus large de la conception efficace de chacune de ces invites individuelles. Les frameworks comme LangChain sont conçus pour orchestrer de telles chaînes.
  • Génération Augmentée par Récupération (RAG) : La RAG est un système qui améliore une invite en récupérant d'abord les données pertinentes d'une base de connaissances externe. L'ingénierie des invites est essentielle au sein d'un système RAG pour formuler correctement à la fois la requête de recherche initiale et l'invite finale qui combine la question de l'utilisateur avec les informations récupérées.

Rejoignez la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant
Lien copié dans le presse-papiers