Découvrez comment l'intelligence spatiale permet à l'IA de percevoir et de naviguer dans le monde en 3D. Apprenez à créer des systèmes sensibles à l'espace avec Ultralytics et la Ultralytics .
L'intelligence spatiale désigne la capacité d'un système d'intelligence artificielle à percevoir, comprendre et naviguer dans le monde physique en trois dimensions. Contrairement à la vision par ordinateur traditionnelle, qui analyse souvent les images 2D comme des instantanés statiques , l'intelligence spatiale implique un raisonnement sur la profondeur, la géométrie, le mouvement et les relations entre les objets dans un environnement dynamique. Elle permet aux machines non seulement de « voir » des pixels, mais aussi de comprendre le contexte physique d'une scène, ce qui leur permet d'interagir plus efficacement avec le monde réel. Cette capacité est le pont entre les données visuelles numériques et l'action physique, servant de pierre angulaire aux agents IA et aux systèmes robotiques avancés.
Pour parvenir à une compréhension de l'espace semblable à celle des humains, un système d'IA s'appuie sur plusieurs technologies et concepts interconnectés.
L'intelligence spatiale transforme les industries en permettant aux machines de fonctionner de manière autonome dans des environnements complexes.
Bien que ces deux concepts soient étroitement liés, il est utile de distinguer l' intelligence spatiale de la vision par ordinateur. La vision par ordinateur est un domaine plus large qui consiste à extraire des informations significatives à partir d'images numériques, de vidéos et d'autres données visuelles. Elle comprend des tâches telles que la classification ou la détection 2D de base. L'intelligence spatiale est un sous-ensemble spécialisé ou une évolution de la vision par ordinateur qui ajoute spécifiquement la dimension de l'espace et de la physique. Elle passe de « Qu'est-ce que cet objet ? » (vision) à « Où se trouve cet objet, comment est-il orienté et comment puis-je interagir avec lui ? » (intelligence spatiale).
Les développeurs peuvent établir les bases des systèmes d'intelligence spatiale à l'aide de Ultralytics . En entraînant des modèles tels que Ultralytics à des tâches telles que la détection de boîtes englobantes orientées (OBB) ou l'estimation de pose, les ingénieurs peuvent fournir les données géométriques nécessaires aux applications robotiques ou de réalité augmentée en aval .
Voici un exemple simple d'extraction de points clés spatiaux à l'aide d'un modèle d'estimation de pose, qui constitue une étape cruciale pour comprendre les mouvements humains dans un espace 3D :
from ultralytics import YOLO
# Load a pre-trained YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Run inference on an image to detect human keypoints
results = model("path/to/image.jpg")
# Access the keypoints (x, y coordinates and confidence)
for result in results:
# keypoints.xy returns a tensor of shape (N, 17, 2)
keypoints = result.keypoints.xy
print(f"Detected keypoints for {len(keypoints)} persons.")
Les récentes avancées dans le domaine des transformateurs de vision (ViT) et des modèles de base accélèrent encore davantage ce domaine, permettant aux systèmes de généraliser la compréhension spatiale dans différents environnements sans nécessiter de reformation approfondie. À mesure que les recherches menées par des groupes tels que le HAI de Stanford et Google se poursuivent, nous pouvons nous attendre à ce que l'intelligence spatiale devienne une fonctionnalité standard dans la prochaine génération d'appareils intelligents.