Triff YOLO26: Vision-KI der nächsten Generation.
Ultralytics
Vision-KI

Verbesserung von KI-Anwendungen mit RAG und Computer Vision

Erfahre, wie die Kombination von Retrieval-Augmented Generation (RAG) mit Computer Vision KI-Systemen hilft, Dokumente, visuelle Inhalte und komplexe reale Inhalte zu interpretieren.

ABAbirami Vina
4 min read
Verbesserung von KI-Anwendungen mit RAG und Computer Vision

Die Nutzung von KI-Tools wie ChatGPT oder Gemini wird schnell zu einer gängigen Methode, um Informationen zu finden. Egal, ob du eine Nachricht entwirfst, ein Dokument zusammenfasst oder eine Frage beantwortest, diese Tools bieten oft eine schnellere und einfachere Lösung.

Aber wenn du Large Language Models (LLMs) schon ein paar Mal benutzt hast, sind dir wahrscheinlich ihre Grenzen aufgefallen. Bei sehr spezifischen oder zeitkritischen Anfragen können sie mit falschen Antworten reagieren, oft sogar sehr überzeugt.

Dies passiert, weil eigenständige LLMs sich ausschließlich auf die Daten verlassen, mit denen sie trainiert wurden. Sie haben keinen Zugriff auf die neuesten Updates oder spezialisiertes Wissen außerhalb dieses Datensatzes. Infolgedessen können ihre Antworten veraltet oder ungenau sein.

Um hier Abhilfe zu schaffen, haben Forscher eine Methode namens Retrieval-Augmented Generation (RAG) entwickelt. RAG verbessert Sprachmodelle, indem es ihnen ermöglicht, bei der Beantwortung von Fragen aktuelle, relevante Informationen aus vertrauenswürdigen Quellen abzurufen.

In diesem Artikel untersuchen wir, wie RAG funktioniert und wie es KI-Tools durch das Abrufen relevanter, aktueller Informationen verbessert. Wir betrachten auch, wie es in Verbindung mit Computer Vision arbeitet, einem Bereich der künstlichen Intelligenz, der sich auf die Interpretation visueller Daten konzentriert, um Systemen zu helfen, nicht nur Text, sondern auch Bilder, Layouts und visuell komplexe Dokumente zu verstehen.

Link to this sectionVerständnis von Retrieval-Augmented Generation (RAG)#

Wenn wir einem KI-Chatbot eine Frage stellen, erwarten wir im Allgemeinen mehr als nur eine Antwort, die gut klingt. Idealerweise sollte eine gute Antwort klar, präzise und wirklich hilfreich sein. Um das zu liefern, benötigt das KI-Modell mehr als nur Sprachkenntnisse; es braucht auch Zugriff auf die richtigen Informationen, insbesondere bei spezifischen oder zeitkritischen Themen.

RAG ist eine Technik, die hilft, diese Lücke zu schließen. Sie kombiniert die Fähigkeit des Sprachmodells, Text zu verstehen und zu generieren, mit der Kraft, relevante Informationen aus externen Quellen abzurufen. Anstatt sich nur auf seine Trainingsdaten zu verlassen, zieht das Modell aktiv unterstützende Inhalte aus vertrauenswürdigen Wissensdatenbanken, während es seine Antwort formuliert.

Wichtige Anwendungsfälle für RAG

Abb. 1. Wichtige RAG-Anwendungsfälle. Bild vom Autor.

Du kannst es dir wie das Fragen einer Person vorstellen, die vor der Antwort eine zuverlässige Referenz konsultiert. Ihre Antwort erfolgt zwar immer noch in ihren eigenen Worten, basiert aber auf den relevantesten und aktuellsten Informationen.

Dieser Ansatz hilft LLMs dabei, Antworten zu geben, die vollständiger, präziser und auf die Anfrage des Benutzers zugeschnitten sind, was sie in realen Anwendungen, bei denen Genauigkeit wirklich zählt, weitaus zuverlässiger macht.

Link to this sectionEin Blick darauf, wie RAG funktioniert#

RAG verbessert die Art und Weise, wie ein Large Language Model antwortet, durch zwei wichtige Schritte: Retrieval und Generation. Zuerst ruft es relevante Informationen aus einer externen Wissensdatenbank ab. Dann nutzt es diese Informationen, um eine gut formulierte, kontextbezogene Antwort zu generieren.

Schauen wir uns ein einfaches Beispiel an, um zu sehen, wie dieser Prozess funktioniert. Stell dir vor, du nutzt einen KI-Assistenten zur Verwaltung deiner persönlichen Finanzen und möchtest prüfen, ob du dein Ausgabenziel für den Monat eingehalten hast.

Der Prozess beginnt, wenn du dem Assistenten eine Frage stellst wie: "Habe ich diesen Monat mein Budget eingehalten?" Anstatt sich nur auf das zu verlassen, was es während des Trainings gelernt hat, verwendet das System einen Retriever, um deine aktuellsten Finanzunterlagen (wie Kontoauszüge oder Transaktionsübersichten) zu durchsuchen. Es konzentriert sich darauf, die Absicht hinter deiner Frage zu verstehen und die relevantesten Informationen zusammenzutragen.

Sobald diese Informationen abgerufen wurden, übernimmt das Sprachmodell. Es verarbeitet sowohl deine Frage als auch die aus deinen Unterlagen abgerufenen Daten, um eine klare, hilfreiche Antwort zu generieren. Anstatt rohe Details aufzulisten, fasst die Antwort deine Ausgaben zusammen und gibt dir eine direkte, aussagekräftige Erkenntnis – zum Beispiel, ob du dein Ziel erreicht hast, und weist auf wichtige Ausgabenbereiche hin.

Dieser Ansatz hilft dem LLM dabei, Antworten zu liefern, die nicht nur präzise sind, sondern auch auf deinen echten, aktuellen Informationen basieren, was die Erfahrung weitaus nützlicher macht als bei einem Modell, das nur mit statischen Trainingsdaten arbeitet.

Verständnis der Funktionsweise von RAG

Abb. 2. Verständnis der Funktionsweise von RAG.

Link to this sectionDer Bedarf an multimodalen RAG-Systemen#

Informationen werden normalerweise nicht immer in einfachem Text geteilt. Von medizinischen Scans und Diagrammen bis hin zu Präsentationsfolien und gescannten Dokumenten enthalten visuelle Elemente oft wichtige Details. Herkömmliche LLMs, die hauptsächlich darauf ausgelegt sind, Text zu lesen und zu verstehen, können bei dieser Art von Inhalten Schwierigkeiten haben.

RAG kann jedoch zusammen mit Computer Vision verwendet werden, um diese Lücke zu schließen. Wenn beides zusammengeführt wird, entsteht ein sogenanntes multimodales RAG-System – eine Einrichtung, die sowohl Text als auch visuelle Elemente verarbeiten kann und KI-Chatbots dabei unterstützt, genauere und vollständigere Antworten zu geben.

Das Herzstück dieses Ansatzes bilden Vision-Language Models (VLMs), die darauf ausgelegt sind, beide Arten von Eingaben zu verarbeiten und darüber zu urteilen. In diesem Setup ruft RAG die relevantesten Informationen aus großen Datenquellen ab, während das VLM, unterstützt durch Computer Vision, Bilder, Layouts und Diagramme interpretiert.

Dies ist besonders nützlich für Dokumente aus der Praxis, wie gescannte Formulare, medizinische Berichte oder Präsentationsfolien, bei denen wichtige Details sowohl im Text als auch in den visuellen Elementen zu finden sein können. Wenn ein multimodales System beispielsweise ein Dokument analysiert, das Bilder neben Tabellen und Absätzen enthält, kann es visuelle Elemente extrahieren, eine Zusammenfassung dessen erstellen, was sie zeigen, und dies mit dem umgebenden Text kombinieren, um eine vollständigere und hilfreichere Antwort zu liefern.

Multimodales RAG unter Verwendung von Bildern und Text zur Bereitstellung besserer Antworten

Abb. 3. Multimodales RAG nutzt Bilder und Text, um bessere Antworten zu liefern.

Link to this sectionAnwendungen von RAG für visuelle Daten#

Nachdem wir nun besprochen haben, was RAG ist und wie es mit Computer Vision zusammenarbeitet, schauen wir uns einige Beispiele aus der Praxis und Forschungsprojekte an, die zeigen, wie dieser Ansatz eingesetzt wird.

Link to this sectionVerständnis visueller Dokumente mit VisRAG#

Angenommen, du versuchst, Erkenntnisse aus einem Finanzbericht oder einem gescannten juristischen Dokument zu gewinnen. Diese Arten von Dateien enthalten oft nicht nur Text, sondern auch Tabellen, Diagramme und Layouts, die helfen, die Informationen zu erläutern. Ein einfaches Sprachmodell könnte diese visuellen Elemente übersehen oder falsch interpretieren, was zu unvollständigen oder ungenauen Antworten führen kann.

VisRAG wurde von Forschern entwickelt, um dieser Herausforderung zu begegnen. Es handelt sich um eine VLM-basierte RAG-Pipeline, die jede Seite als Bild behandelt, anstatt nur den Text zu verarbeiten. Dies ermöglicht es dem System, sowohl den Inhalt als auch seine visuelle Struktur zu verstehen. Dadurch kann es die relevantesten Teile finden und Antworten geben, die klarer, präziser und auf dem vollständigen Kontext des Dokuments basieren.

VisRAG liest Dokumente als Bilder, um Inhalt und Layout zu erfassen

Abb. 4. VisRAG kann Dokumente als Bilder lesen, um den Textinhalt und das Layout zu erfassen.

Link to this sectionVisuelle Fragenbeantwortung mit RAG#

Visuelle Fragenbeantwortung (VQA) ist eine Aufgabe, bei der ein KI-System Fragen zu Bildern beantwortet. Viele bestehende VQA-Systeme konzentrieren sich darauf, Fragen zu einem einzelnen Dokument zu beantworten, ohne nach zusätzlichen Informationen suchen zu müssen – dies nennt man eine geschlossene Umgebung.

VDocRAG ist ein RAG-Framework, das einen realistischeren Ansatz verfolgt. Es integriert VQA mit der Fähigkeit, zuerst relevante Dokumente abzurufen. Dies ist nützlich in realen Situationen, in denen die Frage eines Benutzers auf eines von vielen Dokumenten zutreffen könnte und das System das richtige finden muss, bevor es antwortet. Um dies zu tun, verwendet VDocRAG VLMs, um Dokumente als Bilder zu analysieren, wobei sowohl deren Text als auch die visuelle Struktur erhalten bleiben.

Dies macht VDocRAG besonders wirkungsvoll in Anwendungen wie der Unternehmenssuche, der Dokumentenautomatisierung und dem Kundensupport. Es kann Teams helfen, schnell Antworten aus komplexen, visuell formatierten Dokumenten wie Handbüchern oder Richtliniendateien zu extrahieren, bei denen das Verständnis des Layouts genauso wichtig ist wie das Lesen der Wörter.

Der Unterschied zwischen VDocRAG und LLM-basierten Lösungen

Abb. 5. Der Unterschied zwischen VDocRAG und LLM-basierten Lösungen.

Link to this sectionVerbesserung der Bildunterschriftenerstellung mit RAG#

Bildunterschriften beinhalten das Generieren einer schriftlichen Beschreibung dessen, was in einem Bild passiert. Es wird in einer Vielzahl von Anwendungen eingesetzt – von der Barrierefreiheit von Online-Inhalten bis hin zur Unterstützung der Bildsuche und der Unterstützung von Content-Moderations- und Empfehlungssystemen.

Die Generierung präziser Bildunterschriften ist jedoch für KI-Modelle nicht immer einfach. Es ist besonders schwierig, wenn das Bild etwas anderes zeigt als das, womit das Modell trainiert wurde. Viele Systeme zur Bildunterschriftenerstellung stützen sich stark auf Trainingsdaten, sodass ihre Beschreibungen bei unbekannten Szenen vage oder ungenau ausfallen können.

Um dies anzugehen, entwickelten Forscher Re-ViLM, eine Methode, die Retrieval-Augmented Generation (RAG) in die Bildunterschriftenerstellung einbringt. Anstatt eine Bildunterschrift von Grund auf neu zu generieren, ruft Re-ViLM ähnliche Bild-Text-Paare aus einer Datenbank ab und nutzt sie, um die Bildunterschrift zu steuern.

Dieser abrufbasierte Ansatz hilft dem Modell, seine Beschreibungen auf relevanten Beispielen zu verankern, was sowohl die Genauigkeit als auch die Flüssigkeit verbessert. Erste Ergebnisse zeigen, dass Re-ViLM natürlichere, kontextbewusstere Bildunterschriften durch die Verwendung echter Beispiele generiert und dabei hilft, vage oder ungenaue Beschreibungen zu reduzieren.

Re-ViLM verbessert Bildunterschriften durch das Abrufen von visuell-textuellen Beispielen

Abb. 6. Re-ViLM verbessert Bildunterschriften durch Abrufen von visuell-textuellen Beispielen.

Link to this sectionVor- und Nachteile der Verwendung von RAG zum Verständnis visueller Daten#

Hier ist ein kurzer Überblick über die Vorteile der Anwendung von Retrieval-Augmented Generation-Techniken zum Abrufen und Nutzen visueller Informationen:

  • Verbesserte Zusammenfassungsfunktionen: Zusammenfassungen können Erkenntnisse aus visuellen Elementen (wie Diagrammtrends oder Infografik-Elementen) einbeziehen, nicht nur Text.
  • Robustere Suche und Abfrage: Abrufschritte können relevante visuelle Seiten identifizieren, auch wenn Schlüsselwörter im Text nicht vorhanden sind, indem sie bildbasiertes Verständnis nutzen.
  • Unterstützung für gescannte, handschriftliche oder bildbasierte Dokumente: RAG-Pipelines, die durch VLMs aktiviert werden, können Inhalte verarbeiten, die für reine Textmodelle unlesbar wären.

Trotz dieser Vorteile gibt es immer noch einige Einschränkungen, die bei der Verwendung von RAG zur Arbeit mit visuellen Daten zu beachten sind. Hier sind einige der wichtigsten:

  • Hohe Rechenanforderungen: Die Analyse von Bildern und Text verbraucht mehr Speicher und Rechenleistung, was die Leistung verlangsamen oder die Kosten erhöhen kann.
  • Datenschutz und Sicherheitsbedenken: Visuelle Dokumente, insbesondere in Sektoren wie dem Gesundheitswesen oder dem Finanzwesen, können sensible Informationen enthalten, die Abruf- und Verarbeitungsworkflows verkomplizieren.
  • Längere Inferenzzeiten: Da die visuelle Verarbeitung Komplexität hinzufügt, kann die Generierung von Antworten im Vergleich zu reinen Textsystemen mehr Zeit in Anspruch nehmen.

Link to this sectionWichtige Erkenntnisse#

Retrieval-Augmented Generation verbessert die Art und Weise, wie Large Language Models Fragen beantworten, indem sie ihnen ermöglicht, relevante, aktuelle Informationen aus externen Quellen abzurufen. In Kombination mit Computer Vision können diese Systeme nicht nur Text, sondern auch visuelle Inhalte wie Diagramme, Tabellen, Bilder und gescannte Dokumente verarbeiten, was zu genaueren und fundierteren Antworten führt.

Dieser Ansatz macht LLMs besser geeignet für reale Aufgaben, die komplexe Dokumente beinhalten. Durch die Zusammenführung von Abruf und visuellem Verständnis können diese Modelle verschiedene Formate effektiver interpretieren und Erkenntnisse liefern, die in praktischen, alltäglichen Kontexten nützlicher sind.

Werde Teil unserer wachsenden Community! Erkunde unser GitHub-Repository, um tiefer in KI einzutauchen. Bist du bereit, deine eigenen Computer-Vision-Projekte zu starten? Schau dir unsere Lizenzoptionen an. Entdecke mehr über KI im Gesundheitswesen und Computer Vision im Einzelhandel auf unseren Lösungsseiten!

Explore solutions

Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr

Lass uns gemeinsam die Zukunft der KI bauen!

Beginne deine Reise mit der Zukunft des maschinellen Lernens