Entdecken Sie, wie räumliche Intelligenz es KI ermöglicht, die 3D-Welt wahrzunehmen und sich darin zu bewegen. Lernen Sie, mit Ultralytics und der Ultralytics räumlich intelligente Systeme zu entwickeln.
Räumliche Intelligenz bezeichnet die Fähigkeit eines künstlichen Intelligenzsystems, die physische Welt in drei Dimensionen wahrzunehmen, zu verstehen und sich darin zu bewegen . Im Gegensatz zur herkömmlichen Computervision, die häufig 2D-Bilder als statische Momentaufnahmen analysiert, umfasst räumliche Intelligenz das Schlussfolgern über Tiefe, Geometrie, Bewegung und die Beziehungen zwischen Objekten in einer dynamischen Umgebung. Sie ermöglicht es Maschinen, nicht nur Pixel zu „sehen”, sondern auch den physischen Kontext einer Szene zu verstehen, wodurch sie effektiver mit der realen Welt interagieren können. Diese Fähigkeit ist die Brücke zwischen digitalen visuellen Daten und physischen Aktionen und dient als Grundstein für fortschrittliche KI-Agenten und Robotersysteme.
Um ein menschenähnliches Verständnis von Raum zu erreichen, stützt sich ein KI-System auf mehrere miteinander verbundene Technologien und Konzepte.
Räumliche Intelligenz verändert Branchen, indem sie Maschinen in die Lage versetzt, in komplexen Umgebungen autonom zu arbeiten.
Obwohl eng miteinander verbunden, ist es hilfreich, zwischen räumlicher Intelligenz und Computer Vision zu unterscheiden. Computer Vision ist ein breiteres Feld, das sich auf die Ableitung aussagekräftiger Informationen aus digitalen Bildern, Videos und anderen visuellen Eingaben konzentriert. Dazu gehören Aufgaben wie Klassifizierung oder grundlegende 2D-Erkennung. Räumliche Intelligenz ist ein spezialisierter Teilbereich oder eine Weiterentwicklung der Computervision, der speziell die Dimensionen Raum und Physik hinzufügt. Er bewegt sich weg von der Frage „Was ist dieses Objekt?“ (Vision) hin zu „Wo befindet sich dieses Objekt, wie ist es ausgerichtet und wie kann ich mit ihm interagieren?“ (Räumliche Intelligenz).
Entwickler können mit Ultralytics die Grundlage für räumliche Intelligenzsysteme schaffen. Durch das Trainieren von Modellen wie Ultralytics für Aufgaben wie die Erkennung von Oriented Bounding Box (OBB) oder die Posenschätzung können Ingenieure die erforderlichen geometrischen Daten für nachgelagerte Robotik- oder AR-Anwendungen bereitstellen .
Hier ist ein einfaches Beispiel für die Extraktion räumlicher Schlüsselpunkte mithilfe eines Posenschätzungsmodells, was ein entscheidender Schritt zum Verständnis menschlicher Bewegungen in einem 3D-Raum ist:
from ultralytics import YOLO
# Load a pre-trained YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Run inference on an image to detect human keypoints
results = model("path/to/image.jpg")
# Access the keypoints (x, y coordinates and confidence)
for result in results:
# keypoints.xy returns a tensor of shape (N, 17, 2)
keypoints = result.keypoints.xy
print(f"Detected keypoints for {len(keypoints)} persons.")
Jüngste Fortschritte bei Vision Transformers (ViT) und Grundlagenmodellen beschleunigen diese Entwicklung weiter und ermöglichen es Systemen, räumliches Verständnis über verschiedene Umgebungen hinweg zu verallgemeinern, ohne dass umfangreiche Nachschulungen erforderlich sind. Da die Forschung von Gruppen wie Stanfords HAI und Google weiter voranschreitet, ist davon auszugehen, dass räumliche Intelligenz zu einer Standardfunktion der nächsten Generation intelligenter Geräte werden wird.