Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Ingénierie des invites (Prompt Engineering)

Master prompt engineering to optimize AI outputs for LLMs and Computer Vision. Learn how to guide models like YOLO26 and YOLO-World for accurate, real-time results.

L'ingénierie des invites est le processus stratégique qui consiste à concevoir, affiner et optimiser le texte d'entrée afin de guider les modèles d'intelligence artificielle (IA) vers la production de résultats précis, pertinents et de haute qualité. Ayant initialement gagné en importance avec l'essor des grands modèles linguistiques (LLM) tels que GPT-4, cette discipline est devenue une compétence essentielle pour interagir avec les systèmes d'IA générative dans diverses modalités, notamment le texte, l'image et la vidéo. Plutôt que de modifier les pondérations sous-jacentes du modèle par un nouveau apprentissage, l'ingénierie des invites exploite les connaissances existantes du modèle en formulant la tâche d'une manière que le système peut mieux comprendre, comblant ainsi le fossé entre l'intention humaine et l'exécution par la machine.

Les mécanismes d'une incitation efficace

Fondamentalement, l'ingénierie des invites repose sur la compréhension de la manière dont les modèles de base traitent le contexte et les instructions. Une invite bien construite réduit l'ambiguïté en fournissant des contraintes explicites, les formats de sortie souhaités (tels que JSON ou Markdown) et des informations contextuelles pertinentes . Les praticiens avancés utilisent des techniques telles que l' apprentissage en quelques essais, où l'utilisateur fournit quelques exemples de paires entrée-sortie dans l'invite pour illustrer le modèle souhaité.

Une autre stratégie efficace consiste à utiliser des invites de chaîne de pensée, qui encouragent le modèle à décomposer les tâches de raisonnement complexes en étapes intermédiaires. Cela améliore considérablement les performances sur les requêtes à forte composante logique. En outre, l'optimisation de l'utilisation de la fenêtre contextuelle(la limite de la quantité de texte qu'un modèle peut traiter à la fois) est cruciale pour maintenir la cohérence dans les interactions longues. Des ressources externes, telles que le guide d'OpenAI sur la conception des invites, soulignent l' importance du raffinement itératif pour traiter efficacement les cas limites.

Pertinence dans la vision par ordinateur

Bien que souvent associée au texte, l'ingénierie des invites est de plus en plus essentielle dans le domaine de la vision par ordinateur (CV). Les modèles multimodaux modernes et les détecteurs à vocabulaire ouvert, tels que YOLO, permettent aux utilisateurs de définir des cibles de détection à l'aide du traitement du langage naturel (NLP) plutôt que d'identifiants de classe numériques prédéfinis.

Dans ce contexte, la « prompt » est une description textuelle de l'objet (par exemple, « personne portant un casque rouge »). Cette capacité, connue sous le nom d' apprentissage zéro-shot, permet aux systèmes de detect des objets pour lesquels ils n'ont pas été explicitement formés en exploitant les associations apprises entre les caractéristiques visuelles et les intégrations sémantiques. Pour les environnements de production à grande vitesse où les classes sont fixes, les développeurs pourraient éventuellement passer des modèles à prompt à des modèles efficaces et réentraînés comme YOLO26, mais l'ingénierie des prompts reste la clé d'un prototypage rapide et d'une grande flexibilité.

Applications concrètes

L'ingénierie rapide génère de la valeur dans divers secteurs en permettant une automatisation flexible et intelligente :

  • Analyse visuelle dynamique : dans le domaine de l' IA appliquée au commerce de détail, les gérants de magasin utilisent des modèles de vision basés sur des invites pour rechercher des articles spécifiques sans intervention technique. Un système peut être invité à track les « rayons vides » un jour et les « produits mal placés » le lendemain. Cette flexibilité permet aux entreprises d' adapter immédiatement leurs systèmes de détection d'objets aux tendances saisonnières .
  • Création automatisée de contenu : les équipes marketing s'appuient sur des consignes détaillées pour guider les générateurs de texte-image tels que Stable Diffusion ou Midjourney. En concevant des consignes qui précisent l'éclairage, le style artistique et la composition, les concepteurs peuvent générer rapidement des ressources visuelles.
  • Récupération intelligente des connaissances : dans le domaine du support client, les ingénieurs conçoivent des « invites système » qui demandent aux chatbots de répondre aux questions en utilisant uniquement des données vérifiées de l'entreprise. Il s'agit d'un élément clé de la génération augmentée par la récupération (RAG), qui garantit que l'IA conserve une personnalité utile tout en évitant les hallucinations dans les LLM.

Mise en œuvre avec Ultralytics

L'exemple suivant montre comment l'ingénierie d'invite est appliquée de manière programmatique à l'aide de l'option ultralytics paquet. Ici, nous utilisons un modèle YOLO qui accepte des invites textuelles pour définir les objets à rechercher de manière dynamique, contrairement aux modèles standard tels que YOLO26 qui utilisent des listes de classes fixes.

from ultralytics import YOLO

# Load a YOLO-World model capable of interpreting text prompts
model = YOLO("yolov8s-world.pt")

# Apply prompt engineering to define custom classes dynamically
# The model maps these text descriptions to visual features
model.set_classes(["person in safety vest", "forklift", "blue hardhat"])

# Run inference on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results - the model only detects objects matching the prompts
results[0].show()

Distinguer les concepts apparentés

Pour déployer efficacement des solutions d'IA via la Ultralytics , il est important de distinguer l'ingénierie rapide des techniques d'optimisation similaires :

  • Ingénierie des invites vs réglage des invites: L'ingénierie des invites consiste à créer manuellement des entrées en langage naturel. En revanche, le réglage des invites est une méthode de réglage fin efficace en termes de paramètres (PEFT) qui apprend les « invites souples » (intégrations vectorielles continues) pendant une phase d'entraînement. Ces invites souples sont des optimisations mathématiques invisibles pour l'utilisateur humain.
  • Ingénierie des invites vs ajustement fin: L'ajustement fin met à jour en permanence les poids d'un modèle à l'aide d'un ensemble de données d'entraînement spécifique afin de le spécialiser pour une tâche donnée. L'ingénierie des invites ne modifie pas le modèle lui-même ; elle optimise uniquement les entrées pendant l' inférence en temps réel.
  • Ingénierie des invites vs. Injection d'invites: Alors que l'ingénierie est constructive, l'injection d'invites est une faille de sécurité où des entrées malveillantes manipulent le modèle afin qu'il ignore ses contraintes de sécurité. Garantir la sécurité de l'IA nécessite une défense robuste contre ces invites adversaires.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant