Computer Vision steuert die Entscheidungsfindung von Vision AI-Agenten

Abirami Vina

4 Minuten lesen

20. Januar 2025

Erfahren Sie, wie KI-Agenten mithilfe von Computer Vision die Industrie neu erfinden. Erkunden Sie ihre Anwendungen in Bereichen wie Sicherheit, selbstfahrende Autos und mehr.

Jede Branche, von der Fertigung bis zum Einzelhandel, steht vor ihren eigenen Prozessherausforderungen, und die Suche nach innovativen Wegen zur Lösung dieser Probleme war schon immer der Schlüssel zum Erfolg eines Unternehmens. In letzter Zeit haben sich KI-Agenten in vielen Bereichen zu einer beliebten Lösung entwickelt. Diese Systeme gehen über die Analyse von Daten hinaus. Sie können auch Maßnahmen ergreifen. 

So können KI-Agenten in der Fertigung beispielsweise Fehler in Echtzeit erkennen und automatisch Maßnahmen zur Qualitätskontrolle einleiten, um eine reibungslose Produktion zu gewährleisten. Ebenso können sie in der Logistik und im Einzelhandel mehrere Standorte mit intelligenter Überwachung überwachen und Teams sofort auf ungewöhnliche Aktivitäten aufmerksam machen. 

Dieser Trend nimmt zu, und KI-Agenten sind dabei, die Industrie weltweit zu verändern. Der globale Markt für KI-Agenten erreichte im Jahr 2024 5,1 Milliarden US-Dollar und wird bis 2030 voraussichtlich auf 47,1 Milliarden US-Dollar anwachsen.

__wf_reserved_inherit
Abbildung 1. Ein Blick auf die Größe des globalen Marktes für KI-Agenten.

Eine der Schlüsseltechnologien, die diese Fortschritte vorantreiben, ist die Computer Vision. Indem sie Maschinen in die Lage versetzt, visuelle Daten zu verarbeiten und zu interpretieren, ermöglicht Vision AI den KI-Agenten, Computer-Vision-Aufgaben wie Objekterkennung in Echtzeit, Instanzsegmentierung und Objektverfolgung mit unglaublicher Genauigkeit durchzuführen. Sie überbrückt die Lücke zwischen dem, was Maschinen sehen, und der Art und Weise, wie sie Entscheidungen treffen, und ist damit ein wichtiger Bestandteil vieler KI-gestützter Lösungen.

In diesem Artikel befassen wir uns mit KI-Agenten und ihrer Beziehung zur Computer Vision. Wir werden auch die verschiedenen Arten von KI-Agenten besprechen und wie sie in bildverarbeitungsbasierten Anwendungen eingesetzt werden. Legen wir los!

Was sind KI-Agenten?

Bevor wir uns mit bildverarbeitungsbasierten KI-Agenten befassen, sollten wir uns kurz mit KI-Agenten im Allgemeinen befassen, um zu sehen, wie vielseitig diese Systeme sein können.

Ein KI-Agent ist ein intelligentes System, das Aufgaben oder Fragen verstehen und beantworten kann, ohne auf die Hilfe eines Menschen angewiesen zu sein. Viele KI-Agenten nutzen maschinelles Lernen und die Verarbeitung natürlicher Sprache (NLP), um eine breite Palette von Aufgaben zu bewältigen, von der Beantwortung einfacher Fragen bis hin zur Verwaltung komplexer Prozesse. 

Einige KI-Agenten sind sogar in der Lage, mit der Zeit zu lernen und sich zu verbessern, im Gegensatz zu herkömmlichen KI-Systemen, die bei jeder Aktualisierung auf menschliche Eingaben angewiesen sind. Aus diesem Grund werden KI-Agenten schnell zu einem wesentlichen Bestandteil der KI. Sie können Aufgaben automatisieren, Entscheidungen treffen und mit ihrer Umgebung interagieren, ohne ständig überwacht werden zu müssen. Sie sind besonders nützlich für die Verwaltung sich wiederholender und zeitaufwändiger Aufgaben.

KI-Agenten sind beispielsweise in Bereichen wie Kundenservice und Gastgewerbe zu finden. KI-Agenten werden eingesetzt, um Rückerstattungen zu bearbeiten und personalisierte Produktempfehlungen im Kundenservice anzubieten. Im Gastgewerbe hingegen können sie dem Hotelpersonal helfen, Gästeanfragen zu bearbeiten, den Zimmerservice zu optimieren und den Gästen Sehenswürdigkeiten in der Nähe vorzuschlagen. Diese Beispiele zeigen, wie KI-Agenten alltägliche Prozesse schneller und effizienter machen.

Verstehen, wie KI-Agenten funktionieren

Werfen wir nun einen kurzen Blick auf die Funktionsweise von KI-Agenten. Zwar ist jeder KI-Agent einzigartig und für bestimmte Aufgaben konzipiert, doch haben sie alle die gleichen drei Hauptschritte: Wahrnehmung, Entscheidungsfindung und Handlung.

Im ersten Schritt, der Wahrnehmungsphase, sammeln die KI-Agenten Informationen aus verschiedenen Quellen, um zu verstehen, was vor sich geht. Der nächste Schritt ist die Entscheidungsfindung. Auf der Grundlage der gesammelten Informationen analysieren sie mit Hilfe ihrer Algorithmen die Situation und entscheiden, wie sie am besten vorgehen. Schließlich folgt die Aktion. Sobald sie eine Entscheidung getroffen haben, führen sie diese aus - sei es die Beantwortung einer Frage, die Erledigung einer Aufgabe oder die Meldung eines Problems an einen Mitarbeiter.

Das mag einfach klingen, aber je nach Art des KI-Agenten muss hinter den Kulissen eine ganze Menge passieren, damit diese Schritte funktionieren. Von der Analyse komplexer Daten bis hin zur Verwendung fortschrittlicher maschineller Lernmodelle ist jeder KI-Agent so aufgebaut, dass er bestimmte Aufgaben auf seine eigene Art und Weise erledigt. 

Während sich beispielsweise viele KI-Agenten auf die Verarbeitung von Sprache durch NLP konzentrieren, integrieren andere - so genannte Vision-KI-Agenten - Computer Vision zur Verarbeitung visueller Daten. Mit fortschrittlichen Bildverarbeitungsmodellen wie Ultralytics YOLO11 können KI-Agenten eine präzisere Bildanalyse durchführen.

__wf_reserved_inherit
Abb. 2. Ein Beispiel für das Zählen von Äpfeln in einem Bild mit YOLO11.

Vision AI-Agenten in selbstfahrenden Autos

Am Beispiel von selbstfahrenden Autos soll gezeigt werden, wie KI-Agenten in den drei oben beschriebenen Hauptschritten arbeiten:

  • Wahrnehmung: Vision AI-Agenten in selbstfahrenden Autos sammeln visuelle Daten von Kameras und Sensoren, die im Fahrzeug installiert sind. Zu diesen Daten gehören Bilder und Videos der Umgebung, z. B. von anderen Fahrzeugen, Fußgängern, Verkehrssignalen und Straßenschildern.
  • Entscheidungsfindung: Der KI-Agent verarbeitet diese visuellen Daten mit Modellen wie YOLO11. Er identifiziert Objekte wie Autos und Fußgänger, erkennt Hindernisse oder plötzliche Spurwechsel und erkennt Muster wie den Verkehrsfluss und Signalzustände. Dies hilft dem Auto, die Straßenverhältnisse in Echtzeit zu verstehen.
  • Aktion: Auf der Grundlage seiner Analyse ergreift der KI-Agent Maßnahmen, z. B. das Lenken, um einem Hindernis auszuweichen, die Geschwindigkeit anzupassen oder an einer roten Ampel anzuhalten. Diese Entscheidungen werden schnell getroffen, um ein sicheres und effizientes Fahren zu gewährleisten.

Die selbstfahrenden Autos von Waymo sind ein gutes Beispiel für diese Technologie. Sie nutzen visionäre KI-Agenten, um ihre Umgebung zu verstehen, Entscheidungen in Echtzeit zu treffen und die Straßen sicher und effizient ohne menschliche Eingriffe zu navigieren.

__wf_reserved_inherit
Abbildung 3. Waymos KI-Agenten-basiertes selbstfahrendes Taxi.

Arten von KI-Agenten für die Bildverarbeitung 

Nachdem wir nun gesehen haben, wie KI-Agenten funktionieren und wie sie Computer Vision nutzen, wollen wir uns nun die verschiedenen Arten von KI-Agenten ansehen. Jeder Typ ist für bestimmte Aufgaben konzipiert, von einfachen Aktionen bis hin zu komplexeren Entscheidungs- und Lernprozessen.

Einfache Reflexionsmittel

Einfache Reflexagenten sind der einfachste Typ von KI-Agenten. Sie reagieren auf bestimmte Eingaben mit vordefinierten Aktionen, die ausschließlich auf der aktuellen Situation basieren, ohne Rücksicht auf die Vergangenheit oder zukünftige Ergebnisse. Diese Agenten verwenden in der Regel einfache "Wenn-dann"-Regeln, um ihr Verhalten zu steuern.

Im Hinblick auf die Bildanalyse könnte ein einfacher Reflex-Agent so programmiert werden, dass er eine bestimmte Farbe (z. B. Rot) erkennt und eine sofortige Aktion auslöst (z. B. Markieren oder Zählen roter Objekte). Während dies für einfache Aufgaben funktionieren kann, ist es in komplexeren Umgebungen unzureichend, da der Agent nicht aus früheren Erfahrungen lernt oder sich anpasst.

Modellbasierte Reflexionsagenten

Modellbasierte Reflexagenten sind fortschrittlicher als einfache Reflexagenten, da sie ein internes Modell ihrer Umgebung verwenden, um die Situation besser zu verstehen. Mit diesem Modell können sie fehlende oder unvollständige Informationen verarbeiten und fundiertere Entscheidungen treffen. 

Nehmen Sie zum Beispiel KI-Sicherheitskamerasysteme. Die darin integrierten KI-Agenten können mithilfe von Computer Vision das Geschehen in Echtzeit analysieren. Sie können Bewegungen und Handlungen mit einem Modell des normalen Verhaltens vergleichen und so ungewöhnliche Aktivitäten wie Ladendiebstahl erkennen und potenzielle Sicherheitsbedrohungen genauer kennzeichnen.

__wf_reserved_inherit
Abb. 4. Ein Beispiel für den Einsatz von Computer Vision zur Erkennung von Diebstählen.

Nützlichkeitsorientierte Agenten

Stellen Sie sich eine Drohne vor, die für die Überwachung der Ernte eingesetzt wird. Sie passt ihre Flugbahn an, um mehr Fläche zu überfliegen und dabei Hindernisse zu vermeiden, und wählt die beste Route für die Aufgabe. Das bedeutet, dass die Drohne mehrere mögliche Aktionen bewertet, z. B. welchen Bereich sie priorisieren oder wie sie effizient navigieren soll, und diejenige auswählt, die ihre Effektivität maximiert. 

In ähnlicher Weise sind nutzungsbasierte Agenten darauf ausgelegt, aus mehreren Optionen die beste Aktion auszuwählen, um den größten Nutzen oder das beste Ergebnis zu erzielen. KI-Agenten, die für diesen Zweck entwickelt wurden, können verschiedene visuelle Eingaben, wie Bilder oder Sensordaten, verarbeiten und analysieren und das nützlichste Ergebnis auf der Grundlage vordefinierter Kriterien auswählen.

 

__wf_reserved_inherit
Abb. 5. Nutzdrohnen können für die Ernteüberwachung eingesetzt werden.

Zielgerichtete Agenten

Zielorientierte Agenten sind den nutzungsorientierten Agenten ähnlich, da beide bestimmte Ziele erreichen wollen. Allerdings konzentrieren sich zielorientierte Agenten ausschließlich auf Aktionen, die sie ihrem definierten Ziel näher bringen. Sie bewerten jede Aktion danach, wie sie zum Erreichen ihres Ziels beiträgt, ohne andere Faktoren wie den Gesamtwert oder Kompromisse zu berücksichtigen.

Ein selbstfahrendes Auto arbeitet beispielsweise als zielorientierter Agent, wenn sein Ziel darin besteht, ein Ziel zu erreichen. Es verarbeitet Daten von KI-Kameras und Sensoren, um Entscheidungen zu treffen, z. B. Hindernisse zu umfahren, Verkehrszeichen zu beachten und die richtigen Abzweigungen zu wählen, um auf Kurs zu bleiben. Diese Entscheidungen orientieren sich ausschließlich daran, wie gut sie mit dem Ziel übereinstimmen, das Ziel sicher und effizient zu erreichen. Im Gegensatz zu nutzenbasierten Agenten konzentrieren sich zielbasierte Agenten nur auf die Zielerreichung, ohne zusätzliche Kriterien wie Effizienz oder Optimierung zu berücksichtigen.

__wf_reserved_inherit
Abb. 6. Ein selbstfahrendes Auto, das mithilfe von Computer Vision Objekte in seiner Umgebung erkennt.

Lernende Agenten

Wenn Sie mit Computer Vision vertraut sind, haben Sie vielleicht schon von Feinabstimmung gehört - ein Prozess, bei dem Modelle durch Lernen aus neuen Daten verbessert werden. Lernende Agenten arbeiten auf ähnliche Weise, sie passen sich an und verbessern sich mit der Zeit, wenn sie Erfahrungen sammeln. In Anwendungen wie der bildverarbeitungsbasierten Qualitätskontrolle werden diese Agenten mit jeder Inspektion besser in der Lage, Fehler zu erkennen. Diese Fähigkeit, ihre Leistung zu verfeinern, ist besonders in Bereichen wie der Luftfahrt wichtig, wo Sicherheit und Präzision von entscheidender Bedeutung sind.

Hierarchische Agenten

Hierarchische Agenten vereinfachen komplexe Aufgaben, indem sie sie in kleinere, besser handhabbare Schritte unterteilen. Ein übergeordneter Agent überwacht den Gesamtprozess und trifft strategische Entscheidungen, während untergeordnete Agenten bestimmte Aufgaben erledigen. Dies ist effizienter, wenn es um Vorgänge geht, die mehrere Schritte und eine detaillierte Ausführung erfordern.

In einem automatisierten Lager könnte beispielsweise ein übergeordneter Roboter den Sortierprozess planen und entscheiden, welche Artikel in welche Bereiche gelangen sollen. Gleichzeitig konzentrieren sich die untergeordneten Roboter auf die Identifizierung von Artikeln mithilfe von Computer Vision, analysieren Merkmale wie Größe, Form oder Etiketten und ordnen sie in die richtigen Fächer ein. Eine klare Aufgabenteilung trägt zum reibungslosen Funktionieren des Systems bei.

__wf_reserved_inherit
Abb. 7. Ein Beispiel für einen KI-Roboter, der Pakete sortiert.

Wie man mit dem Aufbau eines KI-Agenten beginnt

Das Herzstück eines KI-Agenten mit Sehfähigkeiten ist ein Computersichtmodell. Eines der neuesten und zuverlässigsten Computer-Vision-Modelle, die heute verfügbar sind, ist Ultralytics YOLO11. YOLO11 ist für seine Echtzeit-Effizienz und -Genauigkeit bekannt und damit perfekt für Computer-Vision-Aufgaben geeignet.

Hier sind die verschiedenen Prozesse, die zum Aufbau eines eigenen KI-Agenten mit den Fähigkeiten von YOLO11 gehören:

  • Bereiten Sie einen Datensatz: Sammeln Sie beschriftete Bilder, die für die Aufgabe Ihres KI-Agenten relevant sind, und bereiten Sie sie vor.
  • Sonderzug das Modell: Trainieren Sie YOLO11 speziell auf Ihren Datensatz, um seine Genauigkeit und Leistung für Ihre spezielle Anwendung zu verbessern.
  • Integration in einen Entscheidungsfindungsrahmen: Verbinden Sie das trainierte Modell mit einem System, das es dem KI-Agenten ermöglicht, Entscheidungen auf der Grundlage von visuellen Eingaben zu treffen.
  • Testen und verfeinern: Setzen Sie den KI-Agenten ein, testen Sie seine Leistung, sammeln Sie Feedback und passen Sie das Modell an, um die Genauigkeit und Zuverlässigkeit zu verbessern.

Die wichtigsten Erkenntnisse

KI-Agenten mit integriertem Bildverarbeitungssystem - Vision-KI-Agenten - verändern die Industrie, indem sie Aufgaben automatisieren, Prozesse beschleunigen und die Entscheidungsfindung verbessern. Von intelligenten Städten, die den Verkehr steuern, bis hin zu Sicherheitssystemen, die Gesichtserkennung nutzen, bringen diese Agenten neue Lösungen für alltägliche Probleme. 

Außerdem können sie mit der Zeit lernen und sich verbessern, was sie in sich verändernden Umgebungen nützlich macht. Mit Tools wie YOLO11 sind die Erstellung und Nutzung dieser KI-Agenten einfacher, was zu intelligenteren, effizienteren Lösungen führt.

Werden Sie Mitglied unserer Community und besuchen Sie unser GitHub-Repository, um mehr über KI zu erfahren. Entdecken Sie verschiedene Anwendungen von Computer Vision im Gesundheitswesen und KI in der Landwirtschaft auf unseren Lösungsseiten. Werfen Sie einen Blick auf die verfügbaren Lizenzierungsoptionen, um loszulegen!

Lassen Sie uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise in die Zukunft des maschinellen Lernens

Kostenloser Start
Link in die Zwischenablage kopiert