Embodied AI
Erforsche Embodied AI und lerne, wie intelligente Systeme mit der physischen Welt interagieren. Entdecke, wie du robotische Wahrnehmung mit Ultralytics YOLO26 antreibst.
Embodied AI stellt eine bedeutende Verschiebung von passiven Algorithmen hin zu intelligenten Systemen dar, die in einer physischen oder simulierten 3D-Umgebung wahrnehmen, schlussfolgern und interagieren können. Im Gegensatz zu herkömmlichen Machine-Learning-Modellen, die rein auf statischen Datensätzen operieren, besitzen diese Systeme einen "Körper" – sei es ein physisches Roboterchassis oder ein virtueller Avatar –, der es ihnen ermöglicht, Aktionen auszuführen und aus kontinuierlichem Feedback der Umgebung zu lernen. Durch die Kombination von Sensoreingaben mit intelligenter Entscheidungsfindung schlagen verkörperte Agenten die Brücke zwischen digitaler Berechnung und der Ausführung in der realen Welt.
Link to this sectionWie verkörperte Systeme die Welt wahrnehmen#
Im Kern dieser dynamischen Systeme steht fortschrittliches Computer Vision, das es dem Agenten ermöglicht, seine Umgebung räumlich zu verstehen. Um sicher und effektiv zu navigieren, verlassen sich verkörperte Agenten stark auf Objekterkennung in Echtzeit und kontinuierliche Pose-Schätzung. Wenn Entwickler die neuronalen Pfade für diese Agenten erstellen, integrieren sie häufig Deep-Learning-Frameworks aus dem PyTorch-Ökosystem oder TensorFlow-Bereitstellungstools, um komplexe räumliche Daten zu verarbeiten.
Um echte Autonomie zu erreichen, nutzen diese Systeme zunehmend Vision-Language-Modelle in Verbindung mit robusten Engines für Echtzeit-Inferenz. Dies ermöglicht es der KI, nicht nur eine Tasse zu erkennen, sondern komplexe Anweisungen wie „Hebe die rote Tasse am Rand des Tisches auf“ zu verstehen. Forschungsergebnisse von Institutionen wie dem Stanford's Institute for Human-Centered Artificial Intelligence (HAI) verschieben weiterhin die Grenzen dessen, wie diese Agenten multisensorische Daten integrieren.
Link to this sectionUnterscheidung verwandter Begriffe der Künstlichen Intelligenz#
Das Verständnis dieses Bereichs erfordert die Abgrenzung von eng verwandten Konzepten:
- Robotik: Die Robotik konzentriert sich stark auf die mechanische Hardware, Aktuatoren und Motorsteuerung. Embodied AI stellt die kognitive Softwareebene bereit, die die Hardware autonom macht, wie in Projekten wie dem Atlas-Roboter von Boston Dynamics zu sehen ist.
- Physische KI: Obwohl die Begriffe oft austauschbar verwendet werden, erfordert physische KI strikt greifbare Hardware in der realen Welt. Embodied AI ist breiter gefasst und umfasst auch virtuelle Agenten, die in simulierten 3D-Physikumgebungen wie der Isaac-Robotikplattform von NVIDIA trainiert werden.
- KI-Agent: Herkömmliche KI-Agenten operieren in digitalen Räumen (z. B. beim Surfen im Internet oder beim Schreiben von Code). Verkörperte Agenten sind darauf spezialisiert, räumliche Dimensionalität, physische Einschränkungen und kontinuierliche sensorische Ströme zu verarbeiten.
Link to this sectionPraxisanwendungen#
Die Integration von kognitivem Denken mit physischer Aktion hat zu transformativen Anwendungen in mehreren Branchen geführt, die ausführlich in der ACM digital library for AI research dokumentiert sind.
- Autonome Fahrzeuge: Selbstfahrende Autos verlassen sich auf verkörperte Intelligenz, um durch Stadtstraßen zu navigieren. Sie verarbeiten kontinuierliche Lidar- und Kameradaten, um Verkehrszeichen und Fußgängerbewegungen zu interpretieren, ähnlich wie Waymos Technologie für autonomes Fahren, die sicher mit dynamischen städtischen Umgebungen interagiert.
- Intelligente Fertigung: Roboterarme, die mit Ultralytics YOLO26-Modellen ausgestattet sind, führen komplexe Aufgaben an Montagelinien aus. Sie identifizieren, greifen und sortieren defekte Teile dynamisch und demonstrieren dabei Prinzipien, die in der jüngsten DeepMind-Robotikforschung untersucht wurden.
- Landwirtschaftliche Drohnen: Unbemannte Luftfahrzeuge nutzen räumliches Bewusstsein, um die Gesundheit der Pflanzen zu überwachen und Ressourcen intelligent nur dort zu versprühen, wo sie benötigt werden, wodurch Abfall reduziert und der Ertrag gesteigert wird.
Link to this sectionWahrnehmung für verkörperte Agenten aufbauen#
Entwickler, die diese physischen Systeme aufbauen, nutzen oft die Ultralytics Platform, um dynamische Trainingsdaten zu annotieren und leichtgewichtige Edge AI-Modelle nahtlos direkt auf Hardware mit geringem Stromverbrauch bereitzustellen.
Unten findest du ein Python-Beispiel, das demonstriert, wie ein Roboter-Agent ein Vision-Modell verwenden könnte, um interaktive Objekte in seiner Umgebung kontinuierlich zu erkennen.
from ultralytics import YOLO
# Load the lightweight YOLO26 model designed for real-time edge hardware
model = YOLO("yolo26n.pt")
# Perform continuous object detection on a robotic camera feed
results = model.predict(source="camera_feed.mp4", stream=True)
# Process the spatial bounding boxes to guide robotic interaction
for r in results:
print(f"Detected {len(r.boxes)} objects ready for physical interaction.")Während die Bereiche Hardware-Design und kognitive Modellierung reifen – geleitet durch Angleichungsbemühungen wie Anthropos Forschung zur KI-Sicherheit und OpenAIs neueste Reasoning-Modelle –, werden verkörperte Systeme den Übergang von Forschungslaboren in den Alltag fortsetzen, wie in der Roboter-Berichterstattung von IEEE Spectrum häufig hervorgehoben wird.






