Glossaire

Intelligence spatiale

Découvrez comment l'intelligence spatiale permet à l'IA de percevoir et de naviguer dans le monde en 3D. Apprenez à créer des systèmes sensibles à l'espace avec Ultralytics et la Ultralytics .

L'intelligence spatiale désigne la capacité d'un système d'intelligence artificielle à percevoir, comprendre et naviguer dans le monde physique en trois dimensions. Contrairement à la vision par ordinateur traditionnelle, qui analyse souvent les images 2D comme des instantanés statiques , l'intelligence spatiale implique un raisonnement sur la profondeur, la géométrie, le mouvement et les relations entre les objets dans un environnement dynamique. Elle permet aux machines non seulement de « voir » des pixels, mais aussi de comprendre le contexte physique d'une scène, ce qui leur permet d'interagir plus efficacement avec le monde réel. Cette capacité est le pont entre les données visuelles numériques et l'action physique, servant de pierre angulaire aux agents IA et aux systèmes robotiques avancés.

Les composantes fondamentales de l'intelligence spatiale

Pour parvenir à une compréhension de l'espace semblable à celle des humains, un système d'IA s'appuie sur plusieurs technologies et concepts interconnectés.

Perception de la profondeur et reconstruction 3D : les systèmes doivent convertir les données 2D provenant des caméras en représentations 3D. Des techniques telles que l' estimation de la profondeur monoculaire permettent aux modèles de prédire la distance à partir d'une seule image, tandis que la détection d'objets 3D aide à identifier le volume et l'orientation des éléments dans cet espace.
SLAM (Simultaneous Localization and Mapping, localisation et cartographie simultanées) : cette technologie permet à un appareil, tel qu'un robot ou un drone, de cartographier un environnement inconnu tout en gardant track sa propre position dans celui-ci. Les approches modernes intègrent souvent le SLAM visuel à l'apprentissage profond afin d'améliorer la robustesse dans des conditions d'éclairage changeantes.
Raisonnement géométrique : au-delà de la détection, le système doit comprendre les contraintes physiques, savoir qu' une tasse repose sur une table ou qu'une porte doit être ouverte pour passer. Cela implique souvent une estimation de la pose pour track des objets ou des articulations humaines en temps réel.
IA incarnée : ce concept relie la perception à l'action. Un agent incarné ne se contente pas d'observer ; il utilise des données spatiales pour planifier ses mouvements, éviter les obstacles et manipuler des objets, à l'instar de l' IA utilisée en robotique dans les usines.

Applications concrètes

L'intelligence spatiale transforme les industries en permettant aux machines de fonctionner de manière autonome dans des environnements complexes.

Robotique autonome et logistique : dans les entrepôts, les robots utilisent l'intelligence spatiale pour naviguer dans des allées encombrées, identifier des colis spécifiques à l'aide de la détection d'objets et les placer avec précision sur des convoyeurs. Ils doivent calculer la relation spatiale entre leur pince et la boîte afin de garantir une prise sûre sans écraser l'article.
Réalité augmentée (RA) et réalité mixte : les appareils tels que les lunettes intelligentes utilisent l'informatique spatiale pour ancrer le contenu numérique dans le monde physique. Par exemple, une application de maintenance en RA peut superposer des instructions de réparation directement sur une pièce spécifique du moteur. Cela nécessite un suivi précis des objets afin de garantir que les graphiques restent alignés lorsque l' utilisateur bouge la tête.

Intelligence spatiale vs vision par ordinateur

Bien que ces deux concepts soient étroitement liés, il est utile de distinguer l' intelligence spatiale de la vision par ordinateur. La vision par ordinateur est un domaine plus large qui consiste à extraire des informations significatives à partir d'images numériques, de vidéos et d'autres données visuelles. Elle comprend des tâches telles que la classification ou la détection 2D de base. L'intelligence spatiale est un sous-ensemble spécialisé ou une évolution de la vision par ordinateur qui ajoute spécifiquement la dimension de l'espace et de la physique. Elle passe de « Qu'est-ce que cet objet ? » (vision) à « Où se trouve cet objet, comment est-il orienté et comment puis-je interagir avec lui ? » (intelligence spatiale).

Mise en œuvre de la conscience spatiale avec Ultralytics

Les développeurs peuvent établir les bases des systèmes d'intelligence spatiale à l'aide de Ultralytics . En entraînant des modèles tels que Ultralytics à des tâches telles que la détection de boîtes englobantes orientées (OBB) ou l'estimation de pose, les ingénieurs peuvent fournir les données géométriques nécessaires aux applications robotiques ou de réalité augmentée en aval .

Voici un exemple simple d'extraction de points clés spatiaux à l'aide d'un modèle d'estimation de pose, qui constitue une étape cruciale pour comprendre les mouvements humains dans un espace 3D :

from ultralytics import YOLO

# Load a pre-trained YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")

# Run inference on an image to detect human keypoints
results = model("path/to/image.jpg")

# Access the keypoints (x, y coordinates and confidence)
for result in results:
    # keypoints.xy returns a tensor of shape (N, 17, 2)
    keypoints = result.keypoints.xy
    print(f"Detected keypoints for {len(keypoints)} persons.")

Les récentes avancées dans le domaine des transformateurs de vision (ViT) et des modèles de base accélèrent encore davantage ce domaine, permettant aux systèmes de généraliser la compréhension spatiale dans différents environnements sans nécessiter de reformation approfondie. À mesure que les recherches menées par des groupes tels que le HAI de Stanford et Google se poursuivent, nous pouvons nous attendre à ce que l'intelligence spatiale devienne une fonctionnalité standard dans la prochaine génération d'appareils intelligents.

Intelligence spatiale

Former les modèlesYOLO d'Ultralytics pour rationaliser les flux de travail dans tous les secteurs d'activité

Solution de licence d'entreprise flexible pour dynamiser votre innovation

Former des modèles d'IA en quelques secondes avec Ultralytics YOLO

Les composantes fondamentales de l'intelligence spatiale

Applications concrètes

Intelligence spatiale vs vision par ordinateur

Mise en œuvre de la conscience spatiale avec Ultralytics

En savoir plus dans cette catégorie

12 cas d'utilisation de l'imagerie aérienne grâce à la vision par ordinateur

Qu'est-ce que l'estimation monoculaire de la profondeur ? Aperçu général

Un aperçu de l'utilisationYOLO Ultralytics pour la détection des menaces par l'IA

Rejoindre la communauté Ultralytics