Entdecken Sie Embodied AI und erfahren Sie, wie intelligente Systeme mit der physischen Welt interagieren. Erfahren Sie, wie Sie mit Ultralytics die Wahrnehmung von Robotern verbessern können.
Embodied AI stellt einen bedeutenden Wandel von passiven Algorithmen hin zu intelligenten Systemen dar, die in einer physischen oder simulierten 3D-Umgebung wahrnehmen, denken und interagieren können. Im Gegensatz zu herkömmlichen Modellen des maschinellen Lernens, die ausschließlich auf statischen Datensätzen basieren, verfügen diese Systeme über einen „Körper“ – sei es ein physisches Roboterchassis oder ein virtueller Avatar –, der es ihnen ermöglicht, Aktionen auszuführen und aus kontinuierlichem Feedback der Umgebung zu lernen. Durch die Kombination von Sensoreingaben mit intelligenter Entscheidungsfindung schließen verkörperte Agenten die Lücke zwischen digitaler Berechnung und realer Ausführung.
Das Herzstück dieser dynamischen Systeme ist fortschrittliche Computervision, die es dem Agenten ermöglicht, seine Umgebung räumlich zu erfassen. Um sicher und effektiv zu navigieren, sind verkörperte Agenten in hohem Maße auf Echtzeit-Objekterkennung und kontinuierliche Posenabschätzung angewiesen. Wenn Entwickler die neuronalen Pfade für diese Agenten aufbauen, integrieren sie häufig Deep-Learning-Frameworks aus dem PyTorch oder TensorFlow , um komplexe räumliche Daten zu verarbeiten.
Um echte Autonomie zu erreichen, nutzen diese Systeme zunehmend Vision-Sprach-Modelle in Verbindung mit robusten Echtzeit-Inferenzmaschinen. Dadurch kann die KI nicht nur eine Tasse erkennen, sondern auch komplexe Anweisungen wie „Nimm die rote Tasse am Rand des Tisches“ verstehen. Forschungen von Institutionen wie dem Stanford Institute for Human-Centered Artificial Intelligence (HAI) erweitern weiterhin die Grenzen der Integration multisensorischer Daten durch diese Agenten.
Um dieses Gebiet zu verstehen, muss man es von eng verwandten Konzepten unterscheiden:
Die Integration von kognitivem Denken und physischer Handlung hat zu transformativen Anwendungen in verschiedenen Branchen geführt, die in der digitalen Bibliothek für KI-Forschung der ACM ausführlich dokumentiert sind.
Entwickler, die diese physischen Systeme aufbauen, nutzen häufig die Ultralytics , um dynamische Trainingsdaten zu annotieren und leichtgewichtige Edge-KI-Modelle nahtlos direkt auf energiesparender Hardware zu implementieren.
Nachstehend finden Sie ein Python , das veranschaulicht, wie ein Roboteragent ein Bildverarbeitungsmodell einsetzen könnte, um detect Objekte in seiner Umgebung kontinuierlich detect .
from ultralytics import YOLO
# Load the lightweight YOLO26 model designed for real-time edge hardware
model = YOLO("yolo26n.pt")
# Perform continuous object detection on a robotic camera feed
results = model.predict(source="camera_feed.mp4", stream=True)
# Process the spatial bounding boxes to guide robotic interaction
for r in results:
print(f"Detected {len(r.boxes)} objects ready for physical interaction.")
Mit der Weiterentwicklung der Bereiche Hardware-Design und kognitive Modellierung – geleitet von Angleichungsbemühungen wie Anthropic Forschung zur KI-Sicherheit und den neuesten Schlussfolgerungsmodellen von OpenAI– werden verkörperte Systeme weiterhin den Übergang vom Forschungslabor in den Alltag vollziehen, wie häufig in der Robotikberichterstattung von IEEE Spectrum hervorgehoben wird.