KI-Agent
Entdecken Sie die Welt der KI-Agenten. Erfahren Sie, wie diese autonomen Systeme Ultralytics nutzen, um in Echtzeit zu wahrzunehmen, zu denken und zu handeln, um komplexe Aufgaben zu lösen.
Ein KI-Agent ist ein autonomes System, das in der Lage ist, seine Umgebung wahrzunehmen, komplexe
Logik zu durchdenken, um Entscheidungen zu treffen, und spezifische Maßnahmen zu ergreifen, um definierte Ziele zu erreichen. Im Gegensatz zu einem statischen
Modell des maschinellen Lernens, das passiv
Eingaben verarbeitet, um eine Ausgabe zu erzeugen, arbeitet ein Agent dynamisch innerhalb eines kontinuierlichen Arbeitsablaufs. Diese Systeme bilden
die „aktive” Schicht der
künstlichen Intelligenz und schließen die
Lücke zwischen digitalen Vorhersagen und der Ausführung in der realen Welt. Durch die Nutzung von Gedächtnis und adaptivem Lernen können Agenten
Aufgaben von der Software-Automatisierung bis zur physischen Navigation ohne ständige menschliche Eingriffe bewältigen.
Der Wahrnehmungs-Überlegungs-Handlungs-Kreislauf
Die Funktionalität eines KI-Agenten basiert auf einem zyklischen Prozess, der oft als
Wahrnehmungs-Handlungs-Schleife beschrieben wird. Diese Architektur ermöglicht es dem Agenten, sinnvoll mit seiner
Umgebung zu interagieren.
-
Wahrnehmung (Sensing): Der Agent sammelt Informationen aus der Welt. In
Computer-Vision -Anwendungen nutzt der Agent
Kameras als „Augen”. Er verwendet Hochgeschwindigkeitsmodelle wie
YOLO26, um
Objekterkennung oder -segmentierung durchzuführen und Rohpixel
in strukturierte Daten umzuwandeln.
-
Argumentation (Denken): Der Agent verarbeitet die wahrgenommenen Daten anhand seiner Ziele. In dieser Phase
werden häufig
große Sprachmodelle (LLMs) für das
semantische Verständnis oder
Verstärkungslernalgorithmen zur
Optimierung von Entscheidungsstrategien integriert. Fortgeschrittene Agenten können mehrere Schritte im Voraus planen, ähnlich wie ein Schachspieler, der
zukünftige Züge antizipiert.
-
Aktion (Ausführung): Basierend auf seiner Argumentation führt der Agent eine Aufgabe aus. Dies kann eine digitale
Aktion sein, wie z. B. das Abfragen einer Datenbank oder das Senden einer Warnmeldung, oder eine physische Aktion in der
Robotik, wie z. B. das Aufnehmen eines bestimmten Gegenstands
von einem Förderband durch einen Roboterarm.
KI-Agent vs. KI-Modell
Es ist wichtig, zwischen einem Agenten und einem Modell zu unterscheiden, da sie unterschiedliche Rollen im Technologie-Stack erfüllen.
-
KI-Modell: Ein Modell ist eine mathematische Engine, beispielsweise ein
neuronales Netzwerk, das darauf trainiert ist, Muster zu erkennen.
Es handelt sich um ein Tool, das Vorhersagen liefert (z. B. „Dies ist ein Auto“), aber nicht von sich aus darauf reagiert.
-
KI-Agent: Ein Agent ist das übergreifende System, das Modelle als Werkzeuge nutzt. Er verfügt über
Handlungsfähigkeit – die Fähigkeit, Veränderungen zu initiieren. Während beispielsweise ein Modell ein rotes Licht erkennt, entscheidet der Agent,
die Bremsen zu betätigen.
Anwendungsfälle in der Praxis
KI-Agenten verändern Branchen, indem sie Arbeitsabläufe automatisieren, die kognitive Flexibilität erfordern.
-
Intelligente Fertigung: In der
industriellen Automatisierung überwachen visuelle Agenten
die Produktionslinien. Wird ein Defekt durch ein
Qualitätskontrollsystem festgestellt, kann der Agent die Maschine selbstständig anhalten und den Vorfall protokollieren, wodurch Verschwendung vermieden wird.
-
Autonome Logistik: Lagerhäuser nutzen autonome Roboter für die Bestandsverwaltung. Diese Roboter
navigieren mithilfe von
SLAM (Simultaneous Localization and Mapping)
und Bildverarbeitungsmodellen durch dynamische Umgebungen, um Pakete effizient zu lokalisieren, zu kommissionieren und zu transportieren.
Aufbau eines einfachen Vision-Agenten
Entwickler können grundlegende Agenten erstellen, indem sie Wahrnehmungsmodelle mit bedingter Logik kombinieren. Das folgende Python
zeigt einen einfachen „Sicherheitsagenten”, der die ultralytics Paket. Der Agent erkennt eine
Person und entscheidet anhand der Zuverlässigkeit des Modells, ob ein Alarm ausgelöst wird.
from ultralytics import YOLO
# Load the YOLO26 model (The Agent's Perception)
model = YOLO("yolo26n.pt")
# 1. Perceive: The agent analyzes an image
results = model("bus.jpg")
# 2. Reason & 3. Act: Decision logic based on perception
for result in results:
# Check if a 'person' (class 0) is detected with high confidence
if 0 in result.boxes.cls and result.boxes.conf.max() > 0.5:
print("ACTION: Person detected! Initiating security protocol.")
else:
print("ACTION: Area clear. Continuing surveillance.")
Verwandte Konzepte
-
Edge-KI: Um in Echtzeit reagieren zu können, werden Agenten
oft lokal auf Hardware wie NVIDIA ausgeführt, wodurch die Latenz minimiert wird, da die Daten
an der Quelle und nicht in der Cloud verarbeitet werden.
-
Künstliche Allgemeine Intelligenz (AGI):
Während aktuelle Agenten spezialisiert sind (schmale KI), bezieht sich AGI auf hypothetische Agenten, die in der Lage sind, jede
intellektuelle Aufgabe auszuführen, die ein Mensch ausführen kann.
-
Generative KI: Moderne Agenten
nutzen häufig GenAI, um dynamische Antworten oder Codes zu erstellen, und fungieren als Assistenten, die im Rahmen ihres Arbeitsablaufs Inhalte generieren können
.
Für diejenigen, die die zugrunde liegenden Modelle für ihre Agenten trainieren möchten, bietet Ultralytics eine optimierte Umgebung für die Annotation von
Datensätzen und die Verwaltung von Trainingsläufen. Weitere Informationen zu Agentenarchitekturen finden Sie in Forschungsarbeiten von
Organisationen wie Stanford HAI und
DeepMind.