Master prompt engineering to optimize AI outputs for LLMs and Computer Vision. Learn how to guide models like YOLO26 and YOLO-World for accurate, real-time results.
L'ingénierie des invites est le processus stratégique qui consiste à concevoir, affiner et optimiser le texte d'entrée afin de guider les modèles d'intelligence artificielle (IA) vers la production de résultats précis, pertinents et de haute qualité. Ayant initialement gagné en importance avec l'essor des grands modèles linguistiques (LLM) tels que GPT-4, cette discipline est devenue une compétence essentielle pour interagir avec les systèmes d'IA générative dans diverses modalités, notamment le texte, l'image et la vidéo. Plutôt que de modifier les pondérations sous-jacentes du modèle par un nouveau apprentissage, l'ingénierie des invites exploite les connaissances existantes du modèle en formulant la tâche d'une manière que le système peut mieux comprendre, comblant ainsi le fossé entre l'intention humaine et l'exécution par la machine.
Fondamentalement, l'ingénierie des invites repose sur la compréhension de la manière dont les modèles de base traitent le contexte et les instructions. Une invite bien construite réduit l'ambiguïté en fournissant des contraintes explicites, les formats de sortie souhaités (tels que JSON ou Markdown) et des informations contextuelles pertinentes . Les praticiens avancés utilisent des techniques telles que l' apprentissage en quelques essais, où l'utilisateur fournit quelques exemples de paires entrée-sortie dans l'invite pour illustrer le modèle souhaité.
Une autre stratégie efficace consiste à utiliser des invites de chaîne de pensée, qui encouragent le modèle à décomposer les tâches de raisonnement complexes en étapes intermédiaires. Cela améliore considérablement les performances sur les requêtes à forte composante logique. En outre, l'optimisation de l'utilisation de la fenêtre contextuelle(la limite de la quantité de texte qu'un modèle peut traiter à la fois) est cruciale pour maintenir la cohérence dans les interactions longues. Des ressources externes, telles que le guide d'OpenAI sur la conception des invites, soulignent l' importance du raffinement itératif pour traiter efficacement les cas limites.
Bien que souvent associée au texte, l'ingénierie des invites est de plus en plus essentielle dans le domaine de la vision par ordinateur (CV). Les modèles multimodaux modernes et les détecteurs à vocabulaire ouvert, tels que YOLO, permettent aux utilisateurs de définir des cibles de détection à l'aide du traitement du langage naturel (NLP) plutôt que d'identifiants de classe numériques prédéfinis.
Dans ce contexte, la « prompt » est une description textuelle de l'objet (par exemple, « personne portant un casque rouge »). Cette capacité, connue sous le nom d' apprentissage zéro-shot, permet aux systèmes de detect des objets pour lesquels ils n'ont pas été explicitement formés en exploitant les associations apprises entre les caractéristiques visuelles et les intégrations sémantiques. Pour les environnements de production à grande vitesse où les classes sont fixes, les développeurs pourraient éventuellement passer des modèles à prompt à des modèles efficaces et réentraînés comme YOLO26, mais l'ingénierie des prompts reste la clé d'un prototypage rapide et d'une grande flexibilité.
L'ingénierie rapide génère de la valeur dans divers secteurs en permettant une automatisation flexible et intelligente :
L'exemple suivant montre comment l'ingénierie d'invite est appliquée de manière programmatique à l'aide de l'option
ultralytics paquet. Ici, nous utilisons un modèle YOLO qui accepte des invites textuelles pour définir les objets à
rechercher de manière dynamique, contrairement aux modèles standard tels que
YOLO26 qui utilisent des listes de classes fixes.
from ultralytics import YOLO
# Load a YOLO-World model capable of interpreting text prompts
model = YOLO("yolov8s-world.pt")
# Apply prompt engineering to define custom classes dynamically
# The model maps these text descriptions to visual features
model.set_classes(["person in safety vest", "forklift", "blue hardhat"])
# Run inference on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results - the model only detects objects matching the prompts
results[0].show()
Pour déployer efficacement des solutions d'IA via la Ultralytics , il est important de distinguer l'ingénierie rapide des techniques d'optimisation similaires :