Descubra cómo la inteligencia espacial permite a la IA percibir y navegar por el mundo 3D. Aprenda a crear sistemas con conciencia espacial con Ultralytics y la Ultralytics .
La inteligencia espacial se refiere a la capacidad de un sistema de inteligencia artificial para percibir, comprender y navegar por el mundo físico en tres dimensiones. A diferencia de la visión artificial tradicional, que a menudo analiza imágenes 2D como instantáneas estáticas , la inteligencia espacial implica razonar sobre la profundidad, la geometría, el movimiento y las relaciones entre objetos en un entorno dinámico. Permite a las máquinas no solo «ver» píxeles, sino también comprender el contexto físico de una escena, lo que les permite interactuar con el mundo real de forma más eficaz. Esta capacidad es el puente entre los datos visuales digitales y la acción física, y sirve de piedra angular para los agentes de IA avanzados y los sistemas robóticos.
Para lograr una comprensión del espacio similar a la humana, un sistema de IA se basa en varias tecnologías y conceptos interconectados.
La inteligencia espacial está transformando las industrias al permitir que las máquinas operen de forma autónoma en entornos complejos.
Aunque están estrechamente relacionados, es útil distinguir entre inteligencia espacial y visión artificial. La visión artificial es un campo más amplio que se centra en obtener información significativa a partir de imágenes digitales, vídeos y otras entradas visuales. Incluye tareas como la clasificación o la detección básica en 2D. La inteligencia espacial es un subconjunto especializado o una evolución de la visión artificial que añade específicamente la dimensión del espacio y la física. Pasa de «¿Qué es este objeto?» (visión) a «¿Dónde está este objeto, cómo está orientado y cómo puedo interactuar con él?» (inteligencia espacial).
Los desarrolladores pueden sentar las bases de los sistemas de inteligencia espacial utilizando Ultralytics . Al entrenar modelos como Ultralytics en tareas como la detección de cajas delimitadoras orientadas (OBB) o la estimación de posturas, los ingenieros pueden proporcionar los datos geométricos necesarios a las aplicaciones de robótica o RA posteriores.
A continuación se muestra un ejemplo sencillo de extracción de puntos clave espaciales mediante un modelo de estimación de posturas, que es un paso fundamental para comprender el movimiento humano en un espacio 3D:
from ultralytics import YOLO
# Load a pre-trained YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Run inference on an image to detect human keypoints
results = model("path/to/image.jpg")
# Access the keypoints (x, y coordinates and confidence)
for result in results:
# keypoints.xy returns a tensor of shape (N, 17, 2)
keypoints = result.keypoints.xy
print(f"Detected keypoints for {len(keypoints)} persons.")
Los recientes avances en Vision Transformers (ViT) y modelos básicos están acelerando aún más este campo, permitiendo a los sistemas generalizar la comprensión espacial en diferentes entornos sin necesidad de un reentrenamiento exhaustivo. A medida que continúan las investigaciones de grupos como HAI de Stanford y Google , podemos esperar que la inteligencia espacial se convierta en una característica estándar en la próxima generación de dispositivos inteligentes.