Meistern Sie die Prompt-Engineering für KI und Computer Vision. Lernen Sie, Eingaben für LLMs und multimodale Modelle wie Ultralytics zu optimieren, um hervorragende Ergebnisse zu erzielen.
Prompt Engineering ist der strategische Prozess des Entwerfens, Verfeinerns und Optimierens von Eingabetexten, um Modelle der künstlichen Intelligenz (KI) dazu anzuleiten, genaue, relevante und qualitativ hochwertige Ergebnisse zu liefern. Mit dem Aufkommen von großen Sprachmodellen (LLMs) wie GPT-4 bekannt, hat sich diese Disziplin zu einer wichtigen Kompetenz für die Interaktion mit generativen KI-Systemen in verschiedenen Modalitäten entwickelt, darunter Text, Bild und Video. Anstatt die zugrunde liegenden Modellgewichte durch erneutes Training zu verändern, nutzt Prompt Engineering das vorhandene Wissen des Modells, indem es die Aufgabe so formuliert, dass das System sie am besten verstehen kann, und so die Lücke zwischen menschlicher Absicht und maschineller Ausführung überbrückt.
Im Kern basiert Prompt Engineering auf dem Verständnis, wie Grundlagenmodelle Kontext und Anweisungen verarbeiten. Ein gut konstruierter Prompt reduziert Mehrdeutigkeiten, indem er explizite Einschränkungen, gewünschte Ausgabeformate (wie JSON oder Markdown) und relevante Hintergrundinformationen liefert. Fortgeschrittene Anwender nutzen Techniken wie Few-Shot-Learning, bei dem der Benutzer einige Beispiele für Eingabe-Ausgabe-Paare innerhalb des Prompts bereitstellt, um das gewünschte Muster zu demonstrieren.
Eine weitere leistungsstarke Strategie ist das Chain-of-Thought-Prompting, das das Modell dazu anregt, komplexe Denkaufgaben in Zwischenschritte zu unterteilen. Dies verbessert die Leistung bei logikintensiven Abfragen erheblich. Darüber hinaus ist die Optimierung der Nutzung des Kontextfensters– die Begrenzung der Textmenge, die ein Modell auf einmal verarbeiten kann – entscheidend für die Aufrechterhaltung der Kohärenz bei langen Interaktionen. Externe Ressourcen, wie der Leitfaden von OpenAI zum Prompt-Design, betonen die Bedeutung der iterativen Verfeinerung, um Randfälle effektiv zu behandeln.
Obwohl es oft mit Text in Verbindung gebracht wird, gewinnt das Prompt Engineering zunehmend an Bedeutung im Bereich Computer Vision (CV). Moderne multimodale Modelle und Detektoren mit offenem Vokabular, wie beispielsweise YOLO, ermöglichen es Benutzern, Erkennungsziele mithilfe von Natural Language Processing (NLP) anstelle von vordefinierten numerischen Klassen-IDs zu definieren.
In diesem Zusammenhang ist der „Prompt“ eine Textbeschreibung des Objekts (z. B. „Person mit rotem Helm“). Diese als Zero-Shot-Lernen bezeichnete Funktion ermöglicht es Systemen, Objekte zu detect , für die sie nicht explizit trainiert wurden, indem sie gelernte Assoziationen zwischen visuellen Merkmalen und semantischen Einbettungen nutzen. In Hochgeschwindigkeits-Produktionsumgebungen, in denen die Klassen festgelegt sind, könnten Entwickler letztendlich von Prompt-Modellen zu effizienten, neu trainierten Modellen wie YOLO26 übergehen, aber Prompt Engineering bleibt der Schlüssel zu schnellem Prototyping und Flexibilität.
Prompt Engineering schafft Mehrwert in verschiedenen Branchen, indem es eine flexible und intelligente Automatisierung ermöglicht:
Das folgende Beispiel zeigt, wie Prompt-Engineering programmatisch mit der
ultralytics Paket. Hier verwenden wir ein YOLO, das Textbefehle akzeptiert, um dynamisch zu definieren, nach welchen Objekten gesucht werden soll
, im Gegensatz zu Standardmodellen wie
YOLO26 die feste Klassenlisten verwenden.
from ultralytics import YOLO
# Load a YOLO-World model capable of interpreting text prompts
model = YOLO("yolov8s-world.pt")
# Apply prompt engineering to define custom classes dynamically
# The model maps these text descriptions to visual features
model.set_classes(["person in safety vest", "forklift", "blue hardhat"])
# Run inference on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results - the model only detects objects matching the prompts
results[0].show()
Um KI-Lösungen über die Ultralytics effektiv einzusetzen, ist es wichtig, Prompt Engineering von ähnlichen Optimierungstechniken zu unterscheiden: