Halluzination (in LLMs)
Erforschen Sie die Ursachen und Risiken von KI-Halluzinationen in LLMs. Erfahren Sie, wie Sie mit RAG, RLHF und Grounding mit Ultralytics sachliche Fehler minimieren können.
Im Bereich der künstlichen Intelligenz (KI) bezeichnet eine Halluzination ein Phänomen, bei dem ein
großes Sprachmodell (LLM)
Inhalte generiert, die zwar überzeugend und syntaktisch korrekt sind, aber sachlich unrichtig, unsinnig oder nicht originalgetreu sind
. Im Gegensatz zu Standard-Softwarefehlern, die einen Absturz oder eine sichtbare Störung verursachen können, verhält sich ein halluzinierendes Modell
wie ein überzeugender Fälscher, der falsche Informationen mit derselben Autorität wie gültige Fakten präsentiert. Dies stellt
Organisationen, die generative KI in sensiblen Bereichen wie dem Gesundheitswesen,
dem Rechtswesen und dem Finanzwesen einsetzen, wo die Datenintegrität von größter Bedeutung ist, vor erhebliche Herausforderungen.
Warum treten Halluzinationen auf?
Um zu verstehen, warum Modelle halluzinieren, ist es hilfreich, sich anzuschauen, wie sie aufgebaut sind. LLMs basieren in der Regel auf der
Transformer-Architektur, die als
ausgefeilte Vorhersage-Engine fungiert. Anstatt eine strukturierte Datenbank mit verifizierten Fakten abzufragen, sagt das Modell das
nächste Token in einer Sequenz auf der Grundlage statistischer Wahrscheinlichkeiten
vorher, die aus seinen Trainingsdaten abgeleitet wurden.
Mehrere Faktoren beeinflussen dieses Verhalten:
-
Probabilistisches Raten: Das Modell priorisiert Flüssigkeit und Kohärenz gegenüber faktischer Wahrheit. Wenn eine
bestimmte Wortfolge statistisch wahrscheinlich ist – auch wenn sie faktisch falsch ist –, kann das Modell sie generieren. Dieses Konzept
wird häufig in der Forschung zu
stochastischen Papageien diskutiert, bei denen Modelle Sprachmuster nachahmen
, ohne deren Bedeutung zu verstehen.
-
Probleme mit der Datenqualität: Wenn der für das Training verwendete umfangreiche Textkorpus Widersprüche,
veraltete Informationen oder Fiktion enthält, kann das Modell diese Ungenauigkeiten reproduzieren.
-
Quelle Amnesie: LLMs komprimieren riesige Informationsmengen zu
Modellgewichten. Dabei geht häufig die
Verbindung zu bestimmten Quellen verloren, was zu „Konfabulationen” führt, bei denen unterschiedliche Konzepte oder Ereignisse
falsch miteinander verknüpft werden.
Beispiele für Halluzinationen in der Praxis
Halluzinationen können sich auf verschiedene Weise äußern, von harmlosen kreativen Ausschmückungen bis hin zu schwerwiegenden sachlichen Fehlern:
-
Rechtliche Fälschung: Es gibt dokumentierte Fälle, in denen Juristen KI zum Verfassen von Schriftsätzen einsetzten,
nur um festzustellen, dass das Modell
nicht existierende Gerichtsverfahren und
Zitate erfunden hatte, um ein Argument zu untermauern.
-
Codegenerierung: Entwickler, die KI-Assistenten verwenden, können mit „Paket-Halluzinationen” konfrontiert werden,
bei denen das Modell den Import einer Softwarebibliothek oder den Aufruf einer Funktion vorschlägt, die eigentlich gar nicht existiert, nur
weil der Name den Standard-Namenskonventionen entspricht.
-
Biografische Fehler: Bei der Befragung zu weniger bekannten Personen können Models diesen Personen mit Überzeugung
falsche Erfolge, Geburtsorte oder berufliche Werdegänge zuschreiben, indem sie Details mehrerer Personen miteinander vermischen.
Strategien zur Abschwächung
Die Verringerung der Häufigkeit von Halluzinationen ist ein Schwerpunkt von
AI Safety. Ingenieure und Forscher wenden verschiedene
Techniken an, um Modelle in der Realität zu verankern:
-
Retrieval-Augmented Generation (RAG): Diese Methode verbindet das LLM mit einer externen, vertrauenswürdigen
Wissensbasis, die häufig in einer
Vektordatenbank indexiert ist. Durch das Abrufen relevanter Dokumente
vor der Generierung einer Antwort wird das Modell durch tatsächliche Daten eingeschränkt.
-
Chain-of-Thought Prompting: Diese
Prompt-Engineering-Technik ermutigt das
Modell, „seine Arbeit zu zeigen”, indem es komplexe Schlussfolgerungen in Zwischenschritte zerlegt, was häufig
Logikfehler reduziert.
-
Reinforcement Learning from Human Feedback (RLHF): Während der Feinabstimmungsphase bewerten menschliche Gutachter
die Antworten des Modells. Durch die Bestrafung von Halluzinationen und die Belohnung von Wahrhaftigkeit lernt das Modell, sich
besser an den Erwartungen der Menschen auszurichten.
Erdung von LLMs mit Computer Vision
In multimodalen KI-Systemen kann die Textgenerierung
auf der Grundlage visueller Daten erfolgen. Wenn ein LLM gebeten wird, eine Szene zu beschreiben, kann es Objekte halluzinieren, die nicht vorhanden sind. Durch die
Integration eines hochpräzisen Objektdetektors wie YOLO26
können Entwickler dem LLM eine sachliche Liste der vorhandenen Objekte zur Verfügung stellen und seine Ausgabe streng auf verifizierte
Erkennungen beschränken.
Das folgende Python zeigt, wie man die ultralytics Paket zum Extrahieren einer verifizierten Liste von
Objekten, die dann als faktische Einschränkung für eine Sprachmodell-Eingabeaufforderung dienen kann.
from ultralytics import YOLO
# Load the YOLO26n model (latest generation, efficient and accurate)
model = YOLO("yolo26n.pt")
# Run inference on an image to get ground-truth detections
results = model("https://ultralytics.com/images/bus.jpg")
# Extract the class names of actually detected objects
detected_objects = [model.names[int(c)] for c in results[0].boxes.cls]
# This factual list prevents the LLM from hallucinating items
print(f"Verified Objects for Prompt Context: {detected_objects}")
# Output example: ['bus', 'person', 'person', 'person', 'person']
Differenzierung verwandter Konzepte
Es ist wichtig, Halluzinationen von anderen häufigen KI-Fehlern zu unterscheiden:
-
Vs. Voreingenommenheit in der KI: Voreingenommenheit bezieht sich auf
systematische Vorurteile in den Ergebnissen (z. B. Bevorzugung einer Bevölkerungsgruppe gegenüber einer anderen), während Halluzinationen ein Versagen der
sachlichen Genauigkeit sind. Eine Antwort kann unvoreingenommen und dennoch halluziniert sein (z. B. „Der Mond besteht aus Käse“).
-
Im Gegensatz dazu steht Überanpassung: Überanpassung tritt auf,
wenn ein Modell die Trainingsdaten zu genau speichert und nicht auf neue Eingaben verallgemeinern kann. Halluzinationen treten häufig auf,
wenn ein Modell versucht, zu stark auf Bereiche zu verallgemeinern, in denen es an Daten mangelt.
-
Vs. Fehlklassifizierung: Bei der
Objekterkennung ist die Kennzeichnung eines Autos als Lkw ein
Klassifizierungsfehler (Genauigkeitsproblem) und keine Halluzination. Halluzinationen sind spezifisch für die generative Erstellung
falscher Inhalte.
Für diejenigen, die Datensätze verwalten und Modelle mit hoher Datenintegrität trainieren möchten, um nachgelagerte Fehler zu vermeiden, bietet Ultralytics umfassende Tools für die Annotation und
Verwaltung von Datensätzen. Darüber hinaus bietet das
NIST AI Risk Management Framework Leitlinien mit
Standards zur Bewertung und Minderung dieser Risiken in Produktionsumgebungen.