Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Chain-of-Thought Prompting

Explore how Chain-of-Thought prompting enhances AI reasoning. Learn to use CoT for complex tasks, from LLM logic to generating [YOLO26](https://docs.ultralytics.com/models/yolo26/) code.

Chain-of-Thought (CoT) Prompting ist eine fortschrittliche Technik im Prompt Engineering, die es großen Sprachmodellen (LLMs) ermöglicht, komplexe Denkaufgaben zu lösen, indem sie diese in logische Zwischenschritte zerlegen. Anstatt ein Modell zu bitten, sofort eine endgültige Antwort zu geben, regt CoT das System dazu an, einen „Gedankengang” zu generieren, der die menschliche Problemlösung nachahmt. Diese schrittweise Argumentation verbessert die Leistung bei Aufgaben, die Arithmetik, symbolische Logik und gesundes Menschenverstand-Argumentation beinhalten, erheblich und verändert die Art und Weise, wie wir mit Künstlicher Intelligenz (KI) -Systemen interagieren.

Der Mechanismus des Denkens

Standard-Sprachmodelle haben oft Schwierigkeiten mit mehrstufigen Problemen, da sie versuchen, die Eingabe in einem einzigen Durchgang direkt der Ausgabe zuzuordnen. Dieser „Black-Box“-Ansatz kann zu Fehlern führen, insbesondere wenn der logische Sprung zu groß ist . Chain-of-Thought-Prompting behebt dieses Problem, indem es zwischen der Eingabefrage und der endgültigen Ausgabe

Dieser Prozess funktioniert im Allgemeinen auf zwei Arten:

  • Zero-Shot CoT: Der Benutzer fügt eine einfache Auslösephrase wie „Lass uns Schritt für Schritt denken” an die Eingabeaufforderung an. Dadurch werden die latenten Denkfähigkeiten des Modells aktiviert, ohne dass spezifische Beispiele erforderlich sind.
  • Few-Shot CoT: Die Eingabeaufforderung enthält einige Beispiele (Exemplare) von Fragen, gepaart mit ihren schrittweisen Lösungen. Dies nutzt Few-Shot-Lernen, um dem Modell genau zu zeigen, wie es seine Logik strukturieren muss, bevor es ein neues Problem angeht.

Durch die explizite Generierung von Zwischenüberlegungen hat das Modell mehr Möglichkeiten, sich selbst zu korrigieren, und bietet Transparenz darüber, wie es zu einer Schlussfolgerung gelangt ist. Dies ist entscheidend für die Reduzierung von Halluzinationen in LLMs, bei denen Modelle ansonsten möglicherweise fälschlicherweise korrekte Fakten angeben.

Anwendungsfälle in der Praxis

Obwohl ursprünglich für textbasierte Logik entwickelt, hat Chain-of-Thought-Prompting leistungsstarke Anwendungen, wenn es mit anderen KI-Bereichen wie Computer Vision und Codegenerierung kombiniert wird.

1. Verbesserung der Codegenerierung für Computer Vision

Entwickler verwenden CoT, um LLMs beim Schreiben komplexer Software-Skripte für Aufgaben wie die Objekterkennung anzuleiten. Anstelle einer vagen Anfrage wie „Schreibe Code, um Autos zu finden“ könnte eine CoT-Eingabeaufforderung die Anfrage wie folgt strukturieren: „Importiere zunächst die erforderlichen Bibliotheken. Lade anschließend das vortrainierte Modell. Definiere dann die Bildquelle. Führe schließlich die Vorhersageschleife aus.“ Dieser strukturierte Ansatz stellt sicher, dass der generierte Code für Modelle wie YOLO26 syntaktisch korrekt und logisch einwandfrei ist.

2. Autonome Entscheidungsfindung

Im Bereich der autonomen Fahrzeuge müssen Systeme visuelle Daten verarbeiten und sicherheitskritische Entscheidungen treffen. Ein Chain-of-Thought-Ansatz ermöglicht es dem System, seine Logik zu artikulieren: „Ich detect Fußgänger in der Nähe des Zebrastreifens. Der Fußgänger steht mit dem Gesicht zur Straße. Die Ampel ist für mich grün, aber der Fußgänger könnte losgehen. Deshalb werde ich langsamer fahren und mich auf das Anhalten vorbereiten.“ Dadurch werden die Entscheidungen der KI interpretierbar und entsprechen den Prinzipien der erklärbaren KI (XAI).

Gedankenkette in Aktion

Obwohl CoT in erster Linie eine Technik der natürlichen Sprache ist, kann es programmgesteuert implementiert werden, um konsistente Interaktionen mit Bildverarbeitungsmodellen zu gewährleisten. Das folgende Python zeigt, wie ein Entwickler eine Eingabeaufforderung strukturieren könnte, um ein LLM (hier simuliert) bei der Generierung gültiger Inferenzcodes für die Ultralytics anzuleiten.

# Example of structuring a Chain-of-Thought prompt for an LLM
# This prompt guides the model to write a valid YOLO26 inference script

cot_prompt = """
Task: Write a Python script to detect objects using YOLO26.

Chain of Thought:
1. Import the YOLO class from the 'ultralytics' library.
2. Load the 'yolo26n.pt' model weights (the latest nano model).
3. Load a sample image using a URL or local path.
4. Run the predict() function and save the results.

Based on these steps, generate the Python code below:
"""

# In a real application, you would send 'cot_prompt' to an LLM API
print(f"Structured Prompt for LLM:\n{cot_prompt}")

Unterscheidung von verwandten Konzepten

Es ist wichtig, Chain-of-Thought-Prompting von ähnlichen Begriffen im Bereich des maschinellen Lernens (ML) zu unterscheiden:

  • Prompt Chaining: Hierbei werden mehrere separate Modellaufrufe miteinander verbunden, wobei die Ausgabe eines Schritts zur Eingabe des nächsten wird. CoT findet innerhalb einer einzigen Eingabeaufforderung statt, um interne Schlussfolgerungen zu erzielen, während Prompt Chaining einen Arbeitsablauf über mehrere Interaktionen hinweg koordiniert.
  • Retrieval-Augmented Generation (RAG): RAG konzentriert sich auf das Abrufen externer Daten (wie Dokumente oder Datenbanken), um das Wissen des Modells zu untermauern. CoT konzentriert sich auf den Denkprozess selbst. Oft werden diese kombiniert – RAG wird verwendet, um die Fakten zu erhalten, und CoT, um über sie nachzudenken.
  • Prompt Tuning: Hierbei handelt es sich um eine parametereffiziente Feinabstimmungsmethode, die kontinuierliche Soft Prompts (Vektoren) während des Trainings optimiert. CoT ist eine diskrete Strategie für natürliche Sprache, die bei der Echtzeit-Inferenz angewendet wird, ohne die Modellgewichte zu verändern.

Zukünftiger Ausblick

Da sich die Grundmodelle ständig weiterentwickeln, wird Chain-of-Thought-Prompting zunehmend zu einer Standard-Best-Practice, um ihr volles Potenzial auszuschöpfen. Untersuchungen von Gruppen wie Google DeepMind deuten darauf hin, dass sich die Fähigkeit der Modelle zum CoT-Reasoning mit zunehmender Größe dramatisch verbessert. Diese Entwicklung ebnet den Weg für zuverlässigere, autonome Agenten, die in der Lage sind, komplexe Arbeitsabläufe in Branchen wie dem Gesundheitswesen oder der intelligenten Fertigung zu bewältigen.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten