Agentic RAG
Erkunde Agentic RAG, um KI mit autonomem Schlussfolgern zu erweitern. Lerne, wie Ultralytics YOLO26 und die Ultralytics Platform intelligente Abfrage und Vision unterstützen.
Agentic Retrieval-Augmented Generation (Agentic RAG) ist eine fortschrittliche künstliche Intelligenz (AI) Architektur, die traditionelle Abrufsysteme durch die Integration autonomer AI-Agenten erweitert. Während standardmäßige RAG-Pipelines in einer linearen "Abrufen-und-Generieren"-Sequenz arbeiten, befähigt Agentic RAG ein Large Language Model (LLM) dazu, als intelligenter Orchestrator zu agieren. Dieser Agent kann unabhängig den Prompt eines Nutzers analysieren, bestimmen, ob externe Informationen erforderlich sind, mehrere Suchanfragen formulieren, die abgerufenen Daten bewerten und seine Recherche iterativ verfeinern, bis er eine umfassende und genaue Antwort zusammengestellt hat. Durch die Nutzung von Fähigkeiten wie Function Calling und Tool Use leiten diese Systeme Anfragen dynamisch an verschiedene Datenbanken, APIs und Analysewerkzeuge weiter, was Halluzinationen in LLMs bei der Bearbeitung komplexer, mehrstufiger Probleme erheblich reduziert.
Link to this sectionWie Agentic RAG-Systeme funktionieren#
Die Kerninnovation von Agentic RAG liegt in seiner Fähigkeit zu Schleifenbildungen und logischem Schließen. Führende agentic AI-Frameworks strukturieren diesen Prozess in dynamische, autonome Workflows:
- Abfrageplanung und Routing: Der Agent zerlegt komplexe Fragen in kleinere, handhabbare Teilaufgaben und leitet jede an das am besten geeignete Werkzeug oder die Vektordatenbank weiter.
- Iteratives Abrufen: Im Gegensatz zum statischen Abrufen überprüft der Agent die abgerufenen Dokumente. Wenn der Kontext nicht ausreicht, formuliert er seine Suchstrategie neu und fragt erneut ab.
- Tool-Integration: Der Agent kann Code schreiben und ausführen, mathematische Berechnungen durchführen oder Machine Learning (ML) Modelle auslösen, um neue Daten spontan zu synthetisieren.
Link to this sectionAgentic RAG vs. Standard RAG#
Um robuste generative Pipelines zu implementieren, ist es entscheidend, Agentic RAG von seinen grundlegenden Konzepten zu unterscheiden:
- Standard Retrieval-Augmented Generation (RAG): Arbeitet in einem einzigen Durchgang. Es ruft Dokumente basierend auf semantischer Ähnlichkeit ab und generiert eine Antwort. Es stößt bei komplexer Logik, die eine Synthese unterschiedlicher Datenquellen über mehrere Schritte erfordert, an seine Grenzen.
- Agentic RAG: Führt Entscheidungsfindungen und Schleifen ein. Der Agent bewertet die Qualität des Abrufs und kann nachfolgende Suchvorgänge oder andere Werkzeuge auslösen, bevor er seine Generierung abschließt.
- Multimodal RAG: Konzentriert sich auf das Abrufen verschiedener Datentypen (Bilder, Text, Video). Agentic RAG kann eine Multimodal RAG-Pipeline steuern und entscheiden, wann eine visuelle Datenbank statt eines Textdokuments durchsucht werden soll.
Link to this sectionPraxisanwendungen#
Agentic RAG transformiert Branchen durch die Automatisierung tiefer Recherchen und komplexer Fehlerbehebungsaufgaben, die menschliches analytisches Denken nachahmen.
- Synthese von Unternehmenswissen: In Unternehmensumgebungen könnte ein Agent die Anweisung erhalten: "Fasse unsere Performance im 3. Quartal zusammen und vergleiche sie mit den neuesten Gewinnen unseres Hauptkonkurrenten." Der Agent fragt autonom interne Finanzdatenbanken ab, führt Echtzeit-Websuchen nach Konkurrentenberichten durch, analysiert die Zahlen mithilfe eines Taschenrechner-Tools und entwirft eine umfassende Zusammenfassung.
- Autonome Qualitätsprüfung: In der Fertigung kann ein Agent damit beauftragt werden, die Ursache eines Montagefehlers zu identifizieren. Er kann ein Computer Vision (CV) Modell auslösen, um einen Live-Kamerafeed zu inspizieren, historische Wartungsprotokolle abzufragen und basierend auf visuellen und textuellen Beweisen einen Diagnosebericht zu erstellen.
Link to this sectionIntegration von Vision AI in agentic Workflows#
Vision-Modelle dienen als leistungsstarke sensorische Werkzeuge für Agentic RAG-Systeme, die mit der physischen Welt interagieren. Ein Agent kann zum Beispiel Ultralytics YOLO26 verwenden, um dynamisch visuellen Kontext aus einem Bild- oder Videostream abzurufen und Benutzerfragen zu beantworten. Entwickler können die Datenannotation und das Training dieser benutzerdefinierten Vision-Tools über die Ultralytics Platform verwalten.
Das folgende Python-Beispiel demonstriert, wie ein AI-Agent YOLO26 programmatisch aufrufen könnte, um strukturierte Beobachtungen aus einem Bild zu extrahieren und so faktischen Kontext für seinen nächsten logischen Schritt zu sammeln.
from ultralytics import YOLO
# Initialize YOLO26 for the agent's visual retrieval tool
model = YOLO("yolo26n.pt")
# The agent invokes the model on an image to gather visual facts
results = model("https://ultralytics.com/images/bus.jpg")
# The agent parses the detected objects to formulate its next query or action
visual_context = [model.names[int(c)] for c in results[0].boxes.cls]
print(f"Agent Observation: I currently see {', '.join(visual_context)}.")Durch die Verbindung hochleistungsfähiger Vision-Modelle mit logischen Schlussfolgerungs-Engines schließt Agentic RAG die Lücke zwischen statischem Wissensabruf und dynamischer, realer räumlicher Intelligenz. Für einen tieferen Einblick in die sich entwickelnde Landschaft autonomer Systeme bietet der Stanford AI Index Report eine umfassende Verfolgung agentischer Fähigkeiten.






