Scopri come l'intelligenza spaziale consente all'IA di percepire e navigare nel mondo 3D. Impara a costruire sistemi spazialmente consapevoli con Ultralytics e la Ultralytics .
L'intelligenza spaziale si riferisce alla capacità di un sistema di intelligenza artificiale di percepire, comprendere e navigare nel mondo fisico in tre dimensioni. A differenza della visione artificiale tradizionale, che spesso analizza immagini 2D come istantanee statiche , l'intelligenza spaziale implica il ragionamento sulla profondità, la geometria, il movimento e le relazioni tra gli oggetti in un ambiente dinamico. Consente alle macchine non solo di "vedere" i pixel, ma anche di comprendere il contesto fisico di una scena, permettendo loro di interagire con il mondo reale in modo più efficace. Questa capacità è il ponte tra i dati visivi digitali e l'azione fisica, fungendo da pietra angolare per gli agenti AI avanzati e i sistemi robotici.
Per ottenere una comprensione dello spazio simile a quella umana, un sistema di IA si basa su diverse tecnologie e concetti interconnessi.
L'intelligenza spaziale sta trasformando i settori industriali consentendo alle macchine di operare in modo autonomo in ambienti complessi.
Sebbene siano strettamente correlate, è utile distinguere tra intelligenza spaziale e visione artificiale. La visione artificiale è un campo più ampio che si concentra sull'estrazione di informazioni significative da immagini digitali, video e altri input visivi. Comprende attività quali la classificazione o il rilevamento 2D di base. L'intelligenza spaziale è un sottoinsieme specializzato o un'evoluzione della visione artificiale che aggiunge specificamente la dimensione dello spazio e della fisica. Passa da "Che cos'è questo oggetto?" (visione) a "Dove si trova questo oggetto, come è orientato e come posso interagire con esso?" (intelligenza spaziale).
Gli sviluppatori possono costruire le basi dei sistemi di intelligenza spaziale utilizzando Ultralytics . Addestrando modelli come Ultralytics su compiti quali il rilevamento di Oriented Bounding Box (OBB) o la stima della posa, gli ingegneri possono fornire i dati geometrici necessari alle applicazioni robotiche o AR a valle.
Ecco un semplice esempio di estrazione di punti chiave spaziali utilizzando un modello di stima della posa, che è un passo fondamentale per comprendere il movimento umano all'interno di uno spazio 3D:
from ultralytics import YOLO
# Load a pre-trained YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Run inference on an image to detect human keypoints
results = model("path/to/image.jpg")
# Access the keypoints (x, y coordinates and confidence)
for result in results:
# keypoints.xy returns a tensor of shape (N, 17, 2)
keypoints = result.keypoints.xy
print(f"Detected keypoints for {len(keypoints)} persons.")
I recenti progressi nei Vision Transformers (ViT) e nei modelli di base stanno accelerando ulteriormente questo settore, consentendo ai sistemi di generalizzare la comprensione spaziale in diversi ambienti senza un riaddestramento approfondito. Con il proseguimento delle ricerche di gruppi come l'HAI di Stanford e Google , possiamo aspettarci che l'intelligenza spaziale diventi una caratteristica standard nella prossima generazione di dispositivi intelligenti.