AI Agent
Erkunde die Welt der KI-Agenten. Lerne, wie diese autonomen Systeme Ultralytics YOLO26 nutzen, um in Echtzeit wahrzunehmen, zu schlussfolgern und zu handeln, um komplexe Aufgaben zu lösen.
Ein KI-Agent ist ein autonomes System, das in der Lage ist, seine Umgebung wahrzunehmen, komplexe Logik zur Entscheidungsfindung zu durchdenken und spezifische Aktionen auszuführen, um definierte Ziele zu erreichen. Im Gegensatz zu einem statischen Machine Learning-Modell, das Eingaben passiv verarbeitet, um eine Ausgabe zu erzeugen, agiert ein Agent dynamisch innerhalb eines kontinuierlichen Arbeitsablaufs. Diese Systeme bilden die „aktive“ Schicht der künstlichen Intelligenz und schlagen die Brücke zwischen digitalen Vorhersagen und der Ausführung in der realen Welt. Durch die Nutzung von Speicher und adaptivem Lernen können Agenten Aufgaben von der Softwareautomatisierung bis zur physischen Navigation ohne ständiges menschliches Eingreifen bewältigen.
Link to this sectionDie Wahrnehmungs-Schlussfolgerungs-Aktions-Schleife#
Die Funktionalität eines KI-Agenten beruht auf einem zyklischen Prozess, der oft als Wahrnehmungs-Aktions-Schleife (Perception-Action Loop) beschrieben wird. Diese Architektur ermöglicht es dem Agenten, sinnvoll mit seiner Umgebung zu interagieren.
-
Wahrnehmung (Sensorik): Der Agent sammelt Informationen aus der Welt. In Anwendungen der Computer Vision verwendet der Agent Kameras als „Augen“. Er nutzt Hochgeschwindigkeitsmodelle wie YOLO26, um Objekterkennung oder Segmentierung durchzuführen und rohe Pixel in strukturierte Daten umzuwandeln.
-
Schlussfolgerung (Denken): Der Agent verarbeitet die wahrgenommenen Daten im Hinblick auf seine Ziele. Diese Phase integriert oft Large Language Models (LLMs) für semantisches Verständnis oder Algorithmen des Reinforcement Learning, um Entscheidungsstrategien zu optimieren. Fortschrittliche Agenten können mehrere Schritte vorausplanen, ähnlich wie ein Schachspieler, der zukünftige Züge antizipiert.
-
Aktion (Ausführung): Basierend auf seinen Schlussfolgerungen führt der Agent eine Aufgabe aus. Dies kann eine digitale Aktion sein, wie das Abfragen einer Datenbank oder das Senden eines Alarms, oder eine physische Aktion in der Robotik, wie ein Roboterarm, der einen bestimmten Gegenstand von einem Förderband nimmt.
Link to this sectionKI-Agent vs. KI-Modell#
Es ist wichtig, zwischen einem Agenten und einem Modell zu unterscheiden, da sie unterschiedliche Rollen im Technologie-Stack einnehmen.
- KI-Modell: Ein Modell ist eine mathematische Engine, wie zum Beispiel ein neuronales Netzwerk, das darauf trainiert wurde, Muster zu erkennen. Es ist ein Werkzeug, das Vorhersagen liefert (z. B. „Dies ist ein Auto“), aber nicht von sich aus darauf reagiert.
- KI-Agent: Ein Agent ist das umfassende System, das Modelle als Werkzeuge nutzt. Er besitzt Agency – die Fähigkeit, Veränderungen einzuleiten. Während ein Modell beispielsweise ein rotes Licht erkennt, entscheidet der Agent, die Bremsen zu betätigen.
Link to this sectionPraxisanwendungen#
KI-Agenten verändern Industrien, indem sie Arbeitsabläufe automatisieren, die kognitive Flexibilität erfordern.
- Smarte Fertigung: In der industriellen Automatisierung überwachen visuelle Agenten Produktionslinien. Wenn ein Defekt durch ein Qualitätskontrollsystem identifiziert wird, kann der Agent autonom die Maschinen anhalten und den Vorfall protokollieren, um Ausschuss zu vermeiden.
- Autonome Logistik: Lagerhäuser nutzen Agenten-Roboter für die Bestandsverwaltung. Diese Agenten navigieren mithilfe von SLAM (Simultaneous Localization and Mapping) und Vision-Modellen durch dynamische Umgebungen, um Pakete effizient zu finden, aufzunehmen und zu transportieren.
Link to this sectionEinen einfachen Vision-Agenten erstellen#
Entwickler können grundlegende Agenten erstellen, indem sie Wahrnehmungsmodelle mit bedingter Logik kombinieren. Das folgende Python-Beispiel demonstriert einen einfachen „Sicherheits-Agenten“ unter Verwendung des ultralytics-Pakets. Der Agent erkennt eine Person und entscheidet basierend auf der Konfidenz des Modells, ob ein Alarm ausgelöst werden soll.
from ultralytics import YOLO
# Load the YOLO26 model (The Agent's Perception)
model = YOLO("yolo26n.pt")
# 1. Perceive: The agent analyzes an image
results = model("bus.jpg")
# 2. Reason & 3. Act: Decision logic based on perception
for result in results:
# Check if a 'person' (class 0) is detected with high confidence
if 0 in result.boxes.cls and result.boxes.conf.max() > 0.5:
print("ACTION: Person detected! Initiating security protocol.")
else:
print("ACTION: Area clear. Continuing surveillance.")Link to this sectionVerwandte Konzepte#
- Edge AI: Um in Echtzeit zu reagieren, laufen Agenten oft lokal auf Hardware wie dem NVIDIA Jetson, wodurch die Latenz minimiert wird, da Daten direkt an der Quelle statt in der Cloud verarbeitet werden.
- Künstliche Allgemeine Intelligenz (AGI): Während aktuelle Agenten spezialisiert sind (schmale KI), bezieht sich AGI auf hypothetische Agenten, die in der Lage sind, jede intellektuelle Aufgabe auszuführen, die ein Mensch erledigen kann.
- Generative KI: Moderne Agenten verwenden häufig GenAI, um dynamische Antworten oder Code zu erstellen, und agieren als Assistenten, die als Teil ihres Arbeitsablaufs Inhalte generieren können.
Für diejenigen, die die zugrunde liegenden Modelle für ihre Agenten trainieren möchten, bietet die Ultralytics Platform eine optimierte Umgebung zum Annotieren von Datensätzen und zur Verwaltung von Trainingsläufen. Weiterführende Literatur zu Agenten-Architekturen findet sich in Forschungsarbeiten von Organisationen wie Stanford HAI und DeepMind.






