Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Ingénierie des invites (Prompt Engineering)

Maîtrisez l'art de l'ingénierie des invites pour guider les modèles d'IA tels que les LLM afin d'obtenir des résultats précis et de haute qualité dans le contenu, le service client, etc.

L'ingénierie des messages-guides est le processus stratégique de structuration et d'optimisation du texte d'entrée, connu sous le nom de messages-guides, afin de efficacement modèles d'intelligence artificielle (IA) vers la production de résultats spécifiques et de haute qualité. Bien qu'elle ait été initialement popularisée par l'essor des grands modèles de langage (LLM) tels que GPT-4, cette discipline est devenue une compétence essentielle pour pour interagir avec divers systèmes génératifs. Il s'agit de comprendre les nuances de l'interprétation du langage par un modèle, le contexte et les instructions pour combler le fossé entre l'intention humaine et l'exécution par la machine. En sélectionnant soigneusement les mots, contraintes de formatage et en fournissant un contexte, les utilisateurs peuvent améliorer de manière significative la précision et la pertinence des réponses de l'IA générative pertinence des réponses de l 'IA générative sans avoir à modifier les paramètres sous-jacents du modèle. paramètres sous-jacents du modèle.

Les mécanismes d'un message-guide efficace

L'ingénierie de l'invite repose essentiellement sur le principe selon lequel les modèles d'IA sont sensibles à la formulation et à la structure des données. entrées. Une invite bien conçue contient généralement des éléments spécifiques destinés à réduire l'ambiguïté. Il s'agit notamment des instructions explicites, des informations contextuelles pertinentes (contexte) et des spécifications de sortie telles que le format - par exemple, la demande d'une réponse en JPEG. par exemple, la demande d'une réponse en JSON ou d'une liste à puces. Les techniques avancées comprennent l'apprentissage à quelques coups, où l'utilisateur fournit des exemples des paires d'entrées-sorties souhaitées dans l'invite pour guider le raisonnement du modèle. Une autre méthode puissante est l 'incitation à la chaîne de pensée, qui encourage le modèle à décomposer les problèmes complexes en étapes de raisonnement intermédiaires, ce qui permet d'améliorer les performances sur les tâches lourdes en termes de logique, comme l'explique le rapport de la Commission européenne. tâches lourdes en termes de logique, comme l'explique en détail Google Research de Google.

Pertinence dans la vision par ordinateur

Bien qu'elle soit souvent associée à la génération de textes, l'ingénierie des messages est de plus en plus vitale dans les domaines suivants vision par ordinateur (CV). Les modèles modèles multimodaux et des détecteurs à vocabulaire ouvert, comme YOLO, permettent aux utilisateurs de définir des cibles de de détection en utilisant le langage naturel plutôt que des identifiants de classe prédéfinis. Dans ce contexte, l'"invite" est la description textuelle de l'objet (par ex. description textuelle de l'objet (par exemple, "casque rouge" ou "casque"). Cette capacité, souvent appelée Cette capacité, souvent appelée apprentissage à partir de zéro, permet aux modèles de detect objets sur lesquels ils n'ont pas été explicitement formés. détecter des objets sur lesquels ils n'ont pas été explicitement formés, simplement en traitant la relation sémantique entre l'invite textuelle et les caractéristiques visuelles. et les caractéristiques visuelles.

L'exemple suivant montre comment l'ingénierie d'invite est appliquée de manière programmatique à l'aide de l'option ultralytics pour définir dynamiquement des classes pour les détection d'objets:

from ultralytics import YOLO

# Load a YOLO-World model capable of interpreting text prompts
model = YOLO("yolo-world.pt")

# Use prompt engineering to define custom classes without retraining
# The model aligns these text descriptions with visual features
model.set_classes(["person in safety vest", "forklift", "cardboard box"])

# Run inference on an image to detect the prompted objects
results = model.predict("warehouse.jpg")

Applications concrètes

L'utilité de l'ingénierie rapide s'étend à diverses industries, améliorant l'automatisation et la créativité :

  • la génération automatisée de contenu : Dans le domaine du marketing et des médias, les professionnels utilisent des messages-guides détaillés pour guider des générateurs texte-image tels que Midjourney ou Diffusion stable. Une invite spécifique décrivant l'éclairage, le style artistique et la composition l'éclairage, le style artistique et la composition permet aux concepteurs de créer rapidement des prototypes d'éléments visuels, ce qui leur fait gagner du temps par rapport aux méthodes de rendu traditionnelles. par rapport aux méthodes de rendu traditionnelles.
  • Support client intelligent : Les entreprises déploient des des chatbots alimentés par des LLM pour répondre aux demandes des clients. Les ingénieurs conçoivent des "messages-guides" qui définissent le personnage du robot (par exemple, "Vous êtes un assistant technique utile"), fixent des limites pour éviter les hallucinations et demandent à l'IA d'extraire des réponses d'une base de données. d'assistance technique utile"), fixent des limites pour éviter les hallucinations et demandent à l'IA d'extraire des réponses d'une base de connaissances spécifique. d'une base de connaissances spécifique.

Distinguer les concepts apparentés

Il est important de différencier l'ingénierie prompte des termes similaires dans le paysage de l'apprentissage automatique :

  • Ingénierie des invites et réglage des invites: L'ingénierie des invites consiste à élaborer manuellement des requêtes en langage naturel. En revanche, l'ajustement des invites est un mécanisme mécanisme efficace en termes de paramètres qui apprend des ( vecteurs numériques) au cours d'une phase de formation afin d'optimiser les entrées du modèle, souvent de manière invisible pour l'utilisateur humain. afin d'optimiser les entrées du modèle, souvent invisibles pour l'utilisateur humain.
  • Ingénierie rapide ou mise au point: Le réglage fin met à jour en permanence les les poids du modèle en s'entraînant sur un ensemble de données spécialisé. L'ingénierie des invites ne modifie pas le modèle lui-même ; elle ne fait qu'optimiser l'entrée pendant l'inférence en temps réel. l'inférence en temps réel.
  • Prompt Engineering vs. RAG: La génération assistée par récupération (RAG) est une architecture de système qui récupère des données externes pour fonder la réponse du modèle. réponse du modèle. L'ingénierie des invites est la technique utilisée dans le cadre de la RAG pour formater correctement les données récupérées et les présenter au LLM en vue de leur traitement. données récupérées et les présenter au LLM pour traitement.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant