Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

KI-Agent

Entdecken Sie die Welt der KI-Agenten. Erfahren Sie, wie diese autonomen Systeme Ultralytics nutzen, um in Echtzeit zu wahrzunehmen, zu denken und zu handeln, um komplexe Aufgaben zu lösen.

Ein KI-Agent ist ein autonomes System, das in der Lage ist, seine Umgebung wahrzunehmen, komplexe Logik zu durchdenken, um Entscheidungen zu treffen, und spezifische Maßnahmen zu ergreifen, um definierte Ziele zu erreichen. Im Gegensatz zu einem statischen Modell des maschinellen Lernens, das passiv Eingaben verarbeitet, um eine Ausgabe zu erzeugen, arbeitet ein Agent dynamisch innerhalb eines kontinuierlichen Arbeitsablaufs. Diese Systeme bilden die „aktive” Schicht der künstlichen Intelligenz und schließen die Lücke zwischen digitalen Vorhersagen und der Ausführung in der realen Welt. Durch die Nutzung von Gedächtnis und adaptivem Lernen können Agenten Aufgaben von der Software-Automatisierung bis zur physischen Navigation ohne ständige menschliche Eingriffe bewältigen.

Der Wahrnehmungs-Überlegungs-Handlungs-Kreislauf

Die Funktionalität eines KI-Agenten basiert auf einem zyklischen Prozess, der oft als Wahrnehmungs-Handlungs-Schleife beschrieben wird. Diese Architektur ermöglicht es dem Agenten, sinnvoll mit seiner Umgebung zu interagieren.

  1. Wahrnehmung (Sensing): Der Agent sammelt Informationen aus der Welt. In Computer-Vision -Anwendungen nutzt der Agent Kameras als „Augen”. Er verwendet Hochgeschwindigkeitsmodelle wie YOLO26, um Objekterkennung oder -segmentierung durchzuführen und Rohpixel in strukturierte Daten umzuwandeln.
  2. Argumentation (Denken): Der Agent verarbeitet die wahrgenommenen Daten anhand seiner Ziele. In dieser Phase werden häufig große Sprachmodelle (LLMs) für das semantische Verständnis oder Verstärkungslernalgorithmen zur Optimierung von Entscheidungsstrategien integriert. Fortgeschrittene Agenten können mehrere Schritte im Voraus planen, ähnlich wie ein Schachspieler, der zukünftige Züge antizipiert.
  3. Aktion (Ausführung): Basierend auf seiner Argumentation führt der Agent eine Aufgabe aus. Dies kann eine digitale Aktion sein, wie z. B. das Abfragen einer Datenbank oder das Senden einer Warnmeldung, oder eine physische Aktion in der Robotik, wie z. B. das Aufnehmen eines bestimmten Gegenstands von einem Förderband durch einen Roboterarm.

KI-Agent vs. KI-Modell

Es ist wichtig, zwischen einem Agenten und einem Modell zu unterscheiden, da sie unterschiedliche Rollen im Technologie-Stack erfüllen.

  • KI-Modell: Ein Modell ist eine mathematische Engine, beispielsweise ein neuronales Netzwerk, das darauf trainiert ist, Muster zu erkennen. Es handelt sich um ein Tool, das Vorhersagen liefert (z. B. „Dies ist ein Auto“), aber nicht von sich aus darauf reagiert.
  • KI-Agent: Ein Agent ist das übergreifende System, das Modelle als Werkzeuge nutzt. Er verfügt über Handlungsfähigkeit – die Fähigkeit, Veränderungen zu initiieren. Während beispielsweise ein Modell ein rotes Licht erkennt, entscheidet der Agent, die Bremsen zu betätigen.

Anwendungsfälle in der Praxis

KI-Agenten verändern Branchen, indem sie Arbeitsabläufe automatisieren, die kognitive Flexibilität erfordern.

  • Intelligente Fertigung: In der industriellen Automatisierung überwachen visuelle Agenten die Produktionslinien. Wird ein Defekt durch ein Qualitätskontrollsystem festgestellt, kann der Agent die Maschine selbstständig anhalten und den Vorfall protokollieren, wodurch Verschwendung vermieden wird.
  • Autonome Logistik: Lagerhäuser nutzen autonome Roboter für die Bestandsverwaltung. Diese Roboter navigieren mithilfe von SLAM (Simultaneous Localization and Mapping) und Bildverarbeitungsmodellen durch dynamische Umgebungen, um Pakete effizient zu lokalisieren, zu kommissionieren und zu transportieren.

Aufbau eines einfachen Vision-Agenten

Entwickler können grundlegende Agenten erstellen, indem sie Wahrnehmungsmodelle mit bedingter Logik kombinieren. Das folgende Python zeigt einen einfachen „Sicherheitsagenten”, der die ultralytics Paket. Der Agent erkennt eine Person und entscheidet anhand der Zuverlässigkeit des Modells, ob ein Alarm ausgelöst wird.

from ultralytics import YOLO

# Load the YOLO26 model (The Agent's Perception)
model = YOLO("yolo26n.pt")

# 1. Perceive: The agent analyzes an image
results = model("bus.jpg")

# 2. Reason & 3. Act: Decision logic based on perception
for result in results:
    # Check if a 'person' (class 0) is detected with high confidence
    if 0 in result.boxes.cls and result.boxes.conf.max() > 0.5:
        print("ACTION: Person detected! Initiating security protocol.")
    else:
        print("ACTION: Area clear. Continuing surveillance.")

Verwandte Konzepte

  • Edge-KI: Um in Echtzeit reagieren zu können, werden Agenten oft lokal auf Hardware wie NVIDIA ausgeführt, wodurch die Latenz minimiert wird, da die Daten an der Quelle und nicht in der Cloud verarbeitet werden.
  • Künstliche Allgemeine Intelligenz (AGI): Während aktuelle Agenten spezialisiert sind (schmale KI), bezieht sich AGI auf hypothetische Agenten, die in der Lage sind, jede intellektuelle Aufgabe auszuführen, die ein Mensch ausführen kann.
  • Generative KI: Moderne Agenten nutzen häufig GenAI, um dynamische Antworten oder Codes zu erstellen, und fungieren als Assistenten, die im Rahmen ihres Arbeitsablaufs Inhalte generieren können .

Für diejenigen, die die zugrunde liegenden Modelle für ihre Agenten trainieren möchten, bietet Ultralytics eine optimierte Umgebung für die Annotation von Datensätzen und die Verwaltung von Trainingsläufen. Weitere Informationen zu Agentenarchitekturen finden Sie in Forschungsarbeiten von Organisationen wie Stanford HAI und DeepMind.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten