Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Prompt Engineering

Meistern Sie die Prompt-Engineering für KI und Computer Vision. Lernen Sie, Eingaben für LLMs und multimodale Modelle wie Ultralytics zu optimieren, um hervorragende Ergebnisse zu erzielen.

Prompt Engineering ist der strategische Prozess des Entwerfens, Verfeinerns und Optimierens von Eingabetexten, um Modelle der künstlichen Intelligenz (KI) dazu anzuleiten, genaue, relevante und qualitativ hochwertige Ergebnisse zu liefern. Mit dem Aufkommen von großen Sprachmodellen (LLMs) wie GPT-4 bekannt, hat sich diese Disziplin zu einer wichtigen Kompetenz für die Interaktion mit generativen KI-Systemen in verschiedenen Modalitäten entwickelt, darunter Text, Bild und Video. Anstatt die zugrunde liegenden Modellgewichte durch erneutes Training zu verändern, nutzt Prompt Engineering das vorhandene Wissen des Modells, indem es die Aufgabe so formuliert, dass das System sie am besten verstehen kann, und so die Lücke zwischen menschlicher Absicht und maschineller Ausführung überbrückt.

Die Mechanismen effektiver Aufforderungen

Im Kern basiert Prompt Engineering auf dem Verständnis, wie Grundlagenmodelle Kontext und Anweisungen verarbeiten. Ein gut konstruierter Prompt reduziert Mehrdeutigkeiten, indem er explizite Einschränkungen, gewünschte Ausgabeformate (wie JSON oder Markdown) und relevante Hintergrundinformationen liefert. Fortgeschrittene Anwender nutzen Techniken wie Few-Shot-Learning, bei dem der Benutzer einige Beispiele für Eingabe-Ausgabe-Paare innerhalb des Prompts bereitstellt, um das gewünschte Muster zu demonstrieren.

Eine weitere leistungsstarke Strategie ist das Chain-of-Thought-Prompting, das das Modell dazu anregt, komplexe Denkaufgaben in Zwischenschritte zu unterteilen. Dies verbessert die Leistung bei logikintensiven Abfragen erheblich. Darüber hinaus ist die Optimierung der Nutzung des Kontextfensters– die Begrenzung der Textmenge, die ein Modell auf einmal verarbeiten kann – entscheidend für die Aufrechterhaltung der Kohärenz bei langen Interaktionen. Externe Ressourcen, wie der Leitfaden von OpenAI zum Prompt-Design, betonen die Bedeutung der iterativen Verfeinerung, um Randfälle effektiv zu behandeln.

Relevanz in der Computer Vision

Obwohl es oft mit Text in Verbindung gebracht wird, gewinnt das Prompt Engineering zunehmend an Bedeutung im Bereich Computer Vision (CV). Moderne multimodale Modelle und Detektoren mit offenem Vokabular, wie beispielsweise YOLO, ermöglichen es Benutzern, Erkennungsziele mithilfe von Natural Language Processing (NLP) anstelle von vordefinierten numerischen Klassen-IDs zu definieren.

In diesem Zusammenhang ist der „Prompt“ eine Textbeschreibung des Objekts (z. B. „Person mit rotem Helm“). Diese als Zero-Shot-Lernen bezeichnete Funktion ermöglicht es Systemen, Objekte zu detect , für die sie nicht explizit trainiert wurden, indem sie gelernte Assoziationen zwischen visuellen Merkmalen und semantischen Einbettungen nutzen. In Hochgeschwindigkeits-Produktionsumgebungen, in denen die Klassen festgelegt sind, könnten Entwickler letztendlich von Prompt-Modellen zu effizienten, neu trainierten Modellen wie YOLO26 übergehen, aber Prompt Engineering bleibt der Schlüssel zu schnellem Prototyping und Flexibilität.

Anwendungsfälle in der Praxis

Prompt Engineering schafft Mehrwert in verschiedenen Branchen, indem es eine flexible und intelligente Automatisierung ermöglicht:

  • Dynamische visuelle Analysen: Im Einzelhandel nutzen Filialleiter auf Eingabeaufforderungen basierende Bildverarbeitungsmodelle, um ohne technischen Aufwand nach bestimmten Artikeln zu suchen. Ein System kann so programmiert werden, dass es an einem Tag „leere Regale” und am nächsten Tag „fehlplatzierte Produkte” track . Diese Flexibilität ermöglicht es Unternehmen, ihre Objekterkennungssysteme sofort an saisonale Trends anzupassen.
  • Automatisierte Inhaltserstellung: Marketingteams verlassen sich auf detaillierte Eingabeaufforderungen, um Text-zu-Bild-Generatoren wie Stable Diffusion oder Midjourney anzusteuern. Durch die Entwicklung von Eingabeaufforderungen, die Beleuchtung, künstlerischen Stil und Komposition festlegen, können Designer schnell visuelle Assets generieren.
  • Intelligente Wissensabfrage: Im Kundensupport entwerfen Ingenieure „Systemaufforderungen“, die Chatbots anweisen, Anfragen nur anhand verifizierter Unternehmensdaten zu beantworten. Dies ist eine Schlüsselkomponente der Retrieval-Augmented Generation (RAG), die sicherstellt, dass die KI eine hilfreiche Persönlichkeit beibehält und gleichzeitig Halluzinationen in LLMs vermeidet.

Implementierung mit Ultralytics

Das folgende Beispiel zeigt, wie Prompt-Engineering programmatisch mit der ultralytics Paket. Hier verwenden wir ein YOLO, das Textbefehle akzeptiert, um dynamisch zu definieren, nach welchen Objekten gesucht werden soll , im Gegensatz zu Standardmodellen wie YOLO26 die feste Klassenlisten verwenden.

from ultralytics import YOLO

# Load a YOLO-World model capable of interpreting text prompts
model = YOLO("yolov8s-world.pt")

# Apply prompt engineering to define custom classes dynamically
# The model maps these text descriptions to visual features
model.set_classes(["person in safety vest", "forklift", "blue hardhat"])

# Run inference on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results - the model only detects objects matching the prompts
results[0].show()

Unterscheidung von verwandten Konzepten

Um KI-Lösungen über die Ultralytics effektiv einzusetzen, ist es wichtig, Prompt Engineering von ähnlichen Optimierungstechniken zu unterscheiden:

  • Prompt Engineering vs. Prompt Tuning: Prompt Engineering umfasst die manuelle Erstellung von Eingaben in natürlicher Sprache. Im Gegensatz dazu ist Prompt Tuning eine parameter-effiziente Feinabstimmungsmethode (PEFT) , die während einer Trainingsphase „Soft Prompts” (kontinuierliche Vektoreinbettungen) lernt. Diese Soft Prompts sind mathematische Optimierungen, die für den menschlichen Benutzer unsichtbar sind.
  • Prompt Engineering vs. Fine-Tuning: Fine-Tuning aktualisiert permanent die Gewichte eines Modells unter Verwendung eines bestimmten Trainingsdatensatzes, um es für eine Aufgabe zu spezialisieren. Prompt Engineering verändert das Modell selbst nicht, sondern optimiert lediglich die Eingabe während der Echtzeit-Inferenz.
  • Prompt Engineering vs. Prompt Injection: Während Engineering konstruktiv ist, handelt es sich bei Prompt Injection um eine Sicherheitslücke, bei der böswillige Eingaben das Modell so manipulieren, dass es seine Sicherheitsbeschränkungen ignoriert. Die Gewährleistung der KI-Sicherheit erfordert einen robusten Schutz vor solchen feindlichen Eingaben.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten