Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten

Computer Vision bestimmt, wie Vision AI-Agenten Entscheidungen treffen

Abirami Vina

4 Min. Lesezeit

20. Januar 2025

Erfahren Sie, wie KI-Agenten Computer Vision nutzen, um Branchen neu zu erfinden. Entdecken Sie ihre Anwendungen in Bereichen wie Sicherheit, selbstfahrende Autos und mehr.

Jede Branche, von der Fertigung bis zum Einzelhandel, steht vor ihren eigenen Herausforderungen im Prozessablauf, und innovative Wege zur Lösung dieser Probleme zu finden, war schon immer der Schlüssel zum Erfolg von Unternehmen. In letzter Zeit sind KI-Agenten in vielen Bereichen zu einer beliebten Lösung geworden. Diese Systeme gehen über die Analyse von Daten hinaus. Sie können auch Maßnahmen ergreifen. 

Zum Beispiel können KI-Agenten in der Fertigung Defekte in Echtzeit erkennen und automatisch Qualitätskontrollmaßnahmen einleiten, um die Produktion reibungslos am Laufen zu halten. In der Logistik und im Einzelhandel können sie mithilfe intelligenter Überwachung mehrere Standorte überwachen und Teams sofort auf ungewöhnliche Aktivitäten aufmerksam machen. 

Mit dem Wachstum dieses Trends verändern KI-Agenten aktiv Branchen weltweit. Der globale Markt für KI-Agenten erreichte im Jahr 2024 5,1 Milliarden US-Dollar und wird bis 2030 voraussichtlich auf 47,1 Milliarden US-Dollar anwachsen.

__wf_reserved_inherit
Abb. 1. Ein Blick auf die globale Marktgröße für KI-Agenten.

Eine der Schlüsseltechnologien, die diese Fortschritte vorantreiben, ist Computer Vision. Indem sie Maschinen in die Lage versetzt, visuelle Daten zu verarbeiten und zu interpretieren, ermöglicht Vision AI, dass KI-Agenten Computer-Vision-Aufgaben wie Echtzeit-Objekterkennung, Instanzsegmentierung und Objektverfolgung mit unglaublicher Genauigkeit ausführen können. Sie schlägt die Brücke zwischen dem, was Maschinen sehen, und wie sie Entscheidungen treffen, was sie zu einem kritischen Bestandteil vieler KI-gestützter Lösungen macht.

In diesem Artikel werden wir KI-Agenten und ihre Beziehung zu Computer Vision untersuchen. Wir werden auch die verschiedenen Arten von KI-Agenten und ihre Verwendung in visionsbasierten Anwendungen erörtern. Los geht's!

Was sind KI-Agenten?

Bevor wir uns mit Vision-basierten KI-Agenten befassen, nehmen wir uns einen Moment Zeit, um KI-Agenten im Allgemeinen zu verstehen, um zu sehen, wie vielseitig diese Systeme sein können.

Ein KI-Agent ist ein intelligentes System, das Aufgaben oder Fragen verstehen und beantworten kann, ohne die Hilfe eines Menschen zu benötigen. Viele KI-Agenten verwenden maschinelles Lernen und natürliche Sprachverarbeitung (NLP), um eine breite Palette von Aufgaben zu bewältigen, von der Beantwortung grundlegender Fragen bis zur Verwaltung komplexer Prozesse. 

Einige KI-Agenten haben sogar die Fähigkeit, im Laufe der Zeit zu lernen und sich zu verbessern, im Gegensatz zu traditionellen KI-Systemen, die für jedes Update auf menschliche Eingaben angewiesen sind. Deshalb werden KI-Agenten schnell zu einem wesentlichen Bestandteil der KI. Sie können Aufgaben automatisieren, Entscheidungen treffen und mit ihrer Umgebung interagieren, ohne dass eine ständige Überwachung erforderlich ist. Sie sind besonders nützlich für die Verwaltung von sich wiederholenden und zeitaufwändigen Aufgaben.

Zum Beispiel finden Sie KI-Agenten in Sektoren wie Kundenservice und Gastgewerbe. KI-Agenten werden eingesetzt, um Rückerstattungen zu bearbeiten und personalisierte Produktempfehlungen im Kundenservice anzubieten. In der Zwischenzeit können sie in der Hotelbranche dem Hotelpersonal helfen, Gästewünsche zu verwalten, den Zimmerservice zu rationalisieren und Gästen nahegelegene Attraktionen vorzuschlagen. Diese Beispiele zeigen, wie KI-Agenten alltägliche Prozesse schneller und effizienter gestalten.

Verstehen, wie Vision-KI-Agenten funktionieren

Werfen wir als Nächstes einen kurzen Blick darauf, wie KI-Agenten funktionieren. Obwohl jeder KI-Agent einzigartig und für bestimmte Aufgaben konzipiert ist, haben sie alle die gleichen drei Hauptschritte gemeinsam: Wahrnehmung, Entscheidungsfindung und Handlung.

Im ersten Schritt, der Wahrnehmung, sammeln KI-Agenten Informationen aus verschiedenen Quellen, um zu verstehen, was passiert. Als Nächstes folgt die Entscheidungsfindung. Basierend auf den gesammelten Informationen analysieren sie die Situation mithilfe ihrer Algorithmen und entscheiden, welche Vorgehensweise am besten geeignet ist. Schließlich gibt es noch die Aktion. Sobald sie eine Entscheidung getroffen haben, führen sie diese aus – sei es, dass sie eine Frage beantworten, eine Aufgabe erledigen oder ein Problem zur Bearbeitung durch einen Menschen kennzeichnen.

Es mag einfach klingen, aber je nach Art des KI-Agenten passiert oft viel hinter den Kulissen, damit diese Schritte funktionieren. Von der Analyse komplexer Daten bis hin zur Verwendung fortschrittlicher Modelle des maschinellen Lernens ist jeder KI-Agent so aufgebaut, dass er bestimmte Aufgaben auf seine eigene Weise bewältigt. 

Während sich viele KI-Agenten beispielsweise auf die Verarbeitung von Sprache durch NLP konzentrieren, integrieren andere – sogenannte Vision-KI-Agenten – Computer Vision, um visuelle Daten zu verarbeiten. Mithilfe fortschrittlicher Computer Vision-Modelle wie Ultralytics YOLO11 können Vision-KI-Agenten eine präzisere Bildanalyse durchführen.

__wf_reserved_inherit
Abb. 2. Ein Beispiel für das Zählen von Äpfeln in einem Bild mit YOLO11.

Vision-KI-Agenten in selbstfahrenden Autos

Verwenden wir selbstfahrende Autos als Beispiel, um zu sehen, wie Vision-KI-Agenten die drei oben beschriebenen Hauptschritte durchlaufen:

  • Wahrnehmung: Vision AI-Agenten in selbstfahrenden Autos sammeln visuelle Daten von Kameras und Sensoren, die am Fahrzeug installiert sind. Diese Daten umfassen Bilder und Videos der Umgebung, wie z. B. andere Fahrzeuge, Fußgänger, Verkehrssignale und Straßenschilder.
  • Entscheidungsfindung: Der KI-Agent verarbeitet diese visuellen Daten mithilfe von Modellen wie YOLO11. Er identifiziert Objekte wie Autos und Fußgänger, erkennt Hindernisse oder plötzliche Spurwechsel und erkennt Muster wie Verkehrsfluss und Ampelzustände. Dies hilft dem Auto, die Straßenverhältnisse in Echtzeit zu verstehen.
  • Aktion: Basierend auf seiner Analyse ergreift der KI-Agent Maßnahmen, wie z. B. das Lenken, um einem Hindernis auszuweichen, die Anpassung der Geschwindigkeit oder das Anhalten an einer roten Ampel. Diese Entscheidungen werden schnell getroffen, um ein sicheres und effizientes Fahren zu gewährleisten.

Die selbstfahrenden Autos von Waymo sind ein gutes Beispiel für diese Technologie. Sie nutzen Vision-KI-Agenten, um ihre Umgebung zu verstehen, Echtzeitentscheidungen zu treffen und sicher und effizient ohne menschliches Zutun auf Straßen zu navigieren.

__wf_reserved_inherit
Abb. 3. Waymos KI-gestütztes, selbstfahrendes Taxi.

Typen von Vision-KI-Agenten 

Nachdem wir nun gesehen haben, wie KI-Agenten funktionieren und wie sie Computer Vision nutzen, wollen wir uns die verschiedenen Arten von KI-Agenten ansehen. Jeder Typ ist für bestimmte Aufgaben konzipiert, von einfachen Aktionen bis hin zu komplexeren Entscheidungsfindungen und Lernprozessen.

Einfache Reflexagenten

Einfache Reflexagenten sind die einfachste Art von KI-Agenten. Sie reagieren auf bestimmte Eingaben mit vordefinierten Aktionen, die ausschließlich auf der aktuellen Situation basieren, ohne die Vergangenheit oder zukünftige Ergebnisse zu berücksichtigen. Diese Agenten verwenden typischerweise einfache "Wenn-dann"-Regeln, um ihr Verhalten zu steuern.

In Bezug auf die Bildanalyse könnte ein einfacher Reflexagent so programmiert werden, dass er eine bestimmte Farbe (z. B. Rot) erkennt und eine sofortige Aktion auslöst (z. B. das Hervorheben oder Zählen roter Objekte). Dies kann zwar für einfache Aufgaben funktionieren, reicht aber in komplexeren Umgebungen nicht aus, da der Agent nicht aus früheren Erfahrungen lernt oder sich anpasst.

Modellbasierte Reflexagenten

Modellbasierte Reflexagenten sind fortschrittlicher als einfache Reflexagenten, da sie ein internes Modell ihrer Umgebung verwenden, um die Situation besser zu verstehen. Dieses Modell ermöglicht es ihnen, mit fehlenden oder unvollständigen Informationen umzugehen und fundiertere Entscheidungen zu treffen. 

Nehmen wir zum Beispiel KI-Sicherheitskamerasysteme. Vision-KI-Agenten, die in diese integriert sind, können Computer Vision nutzen, um in Echtzeit zu analysieren, was passiert. Sie können Bewegungen und Aktionen mit einem Modell normalen Verhaltens vergleichen und so ungewöhnliche Aktivitäten wie Ladendiebstahl erkennen und potenzielle Sicherheitsbedrohungen genauer kennzeichnen.

__wf_reserved_inherit
Abb. 4. Ein Beispiel für die Verwendung von Computer Vision zur Erkennung von Diebstahl.

Nutzenbasierte Agenten

Stellen Sie sich eine Drohne für Versorgungsunternehmen vor, die zur Überwachung von Feldfrüchten eingesetzt wird. Sie passt ihren Flugweg an, um mehr Fläche abzudecken, Hindernissen auszuweichen und die beste Route für die jeweilige Aufgabe auszuwählen. Das bedeutet, dass die Drohne mehrere potenzielle Aktionen bewertet, z. B. welchen Bereich sie priorisieren oder wie sie effizient navigieren soll, und diejenige auswählt, die ihre Effektivität maximiert. 

In ähnlicher Weise sind Utility-basierte Agenten so konzipiert, dass sie die beste Aktion aus mehreren Optionen auswählen, um den größten Nutzen oder das beste Ergebnis zu erzielen. Für diesen Zweck entwickelte Vision-KI-Agenten können verschiedene visuelle Eingaben, wie z. B. Bilder oder Sensordaten, verarbeiten und analysieren und das nützlichste Ergebnis auf der Grundlage vordefinierter Kriterien auswählen.

 

__wf_reserved_inherit
Abb. 5. Nutzlastbasierte Drohnen können zur Pflanzenüberwachung eingesetzt werden.

Zielbasierte Agenten

Zielbasierte Agenten ähneln utilitätsbasierten Agenten, da beide darauf abzielen, bestimmte Ziele zu erreichen. Zielbasierte Agenten konzentrieren sich jedoch ausschließlich auf Aktionen, die sie ihrem definierten Ziel näher bringen. Sie bewerten jede Aktion danach, wie sie zur Erreichung ihres Ziels beiträgt, ohne andere Faktoren wie den Gesamtwert oder Kompromisse abzuwägen.

Ein autonomes Auto beispielsweise agiert als zielbasierter Agent, wenn sein Ziel darin besteht, ein bestimmtes Ziel zu erreichen. Es verarbeitet Daten von KI-Kameras und Sensoren, um Entscheidungen zu treffen, wie z. B. das Vermeiden von Hindernissen, das Befolgen von Verkehrssignalen und die Wahl der richtigen Abbiegungen, um auf Kurs zu bleiben. Diese Entscheidungen werden ausschließlich davon geleitet, wie gut sie mit dem Ziel übereinstimmen, das Ziel sicher und effizient zu erreichen. Im Gegensatz zu nutzenbasierten Agenten konzentrieren sich zielbasierte Agenten nur auf die Zielerreichung, ohne zusätzliche Kriterien wie Effizienz oder Optimierung zu berücksichtigen.

__wf_reserved_inherit
Abb. 6. Ein selbstfahrendes Auto, das Computer Vision verwendet, um Objekte in seiner Umgebung zu identifizieren.

Lernende Agenten

Wenn Sie mit Computer Vision vertraut sind, haben Sie vielleicht schon von Fine-Tuning gehört - einem Prozess, bei dem Modelle sich durch das Lernen aus neuen Daten verbessern. Lernende Agenten arbeiten auf ähnliche Weise und passen sich im Laufe der Zeit an und verbessern sich, wenn sie Erfahrungen sammeln. In Anwendungen wie der visionsbasierten Qualitätskontrolle werden diese Agenten mit jeder Inspektion besser darin, Defekte zu erkennen. Diese Fähigkeit, ihre Leistung zu verfeinern, ist besonders wichtig in Bereichen wie der Luftfahrt, wo Sicherheit und Präzision von entscheidender Bedeutung sind.

Hierarchische Agenten

Hierarchische Agenten vereinfachen komplexe Aufgaben, indem sie diese in kleinere, besser handhabbare Schritte unterteilen. Ein Agent höherer Ebene überwacht den Gesamtprozess und trifft strategische Entscheidungen, während Agenten niedrigerer Ebene spezifische Aufgaben bearbeiten. Dies ist effizienter bei Vorgängen, die mehrere Schritte und eine detaillierte Ausführung erfordern.

In einem automatisierten Lager kann beispielsweise ein Roboter höherer Ebene den Sortierprozess planen und entscheiden, welche Artikel in welche Bereiche gelangen sollen. Gleichzeitig konzentrieren sich Roboter niedrigerer Ebene auf die Identifizierung von Artikeln mithilfe von Computer Vision, analysieren Merkmale wie Größe, Form oder Etiketten und ordnen sie in die richtigen Behälter ein. Eine klare Aufteilung der Verantwortlichkeiten trägt dazu bei, dass das System reibungslos funktioniert.

__wf_reserved_inherit
Abb. 7. Ein Beispiel für einen Robotik-KI-Agenten, der Pakete sortiert.

So starten Sie mit der Entwicklung eines Vision AI Agent

Das Herzstück eines KI-Agenten mit Sehfähigkeiten ist ein Computer-Vision-Modell. Eines der neuesten und zuverlässigsten Computer-Vision-Modelle, das heute verfügbar ist, ist Ultralytics YOLO11. YOLO11 ist bekannt für seine Echtzeit-Effizienz und Genauigkeit, was es perfekt für Computer-Vision-Aufgaben macht.

Hier sind die verschiedenen Prozesse, die mit dem Aufbau Ihres eigenen KI-Agenten mit den Fähigkeiten von YOLO11 verbunden sind:

  • Bereiten Sie einen Datensatz vor: Sammeln und verarbeiten Sie beschriftete Bilder, die für die Aufgabe relevant sind, die Ihr KI-Agent ausführen soll.
  • Benutzerdefiniertes Training des Modells: Trainieren Sie YOLO11 speziell auf Ihrem Datensatz, um seine Genauigkeit und Leistung für Ihre spezielle Anwendung zu verbessern.
  • Integration in ein Entscheidungsfindungs-Framework: Verbinden Sie das trainierte Modell mit einem System, das es dem KI-Agenten ermöglicht, Entscheidungen auf der Grundlage visueller Eingaben zu treffen.
  • Testen und verfeinern: Stellen Sie den KI-Agenten bereit, testen Sie seine Leistung, sammeln Sie Feedback und passen Sie das Modell an, um die Genauigkeit und Zuverlässigkeit zu verbessern.

Wesentliche Erkenntnisse

KI-Agenten, die mit Computer Vision integriert sind – Vision-KI-Agenten – verändern Branchen, indem sie Aufgaben automatisieren, Prozesse beschleunigen und die Entscheidungsfindung verbessern. Von intelligenten Städten, die den Verkehr steuern, bis hin zu Sicherheitssystemen, die Gesichtserkennung verwenden, bringen diese Agenten neue Lösungen für gängige Probleme. 

Sie können auch im Laufe der Zeit weiter lernen und sich verbessern, was sie in sich verändernden Umgebungen nützlich macht. Mit Tools wie YOLO11 ist das Erstellen und Verwenden dieser KI-Agenten einfacher, was zu intelligenteren und effizienteren Lösungen führt.

Treten Sie unserer Community bei und besuchen Sie unser GitHub-Repository, um mehr über KI zu erfahren. Entdecken Sie auf unseren Lösungsseiten verschiedene Anwendungen von Computer Vision im Gesundheitswesen und KI in der Landwirtschaft. Werfen Sie einen Blick auf die verfügbaren Lizenzoptionen, um loszulegen!

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens

Kostenlos starten
Link in die Zwischenablage kopiert