Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

SLAM visual (localización y cartografía simultáneas)

Descubre cómo Visual SLAM permite la cartografía autónoma. Aprende a mejorar la precisión con Ultralytics y a implementar soluciones a través de la Ultralytics .

El Visual SLAM (localización y cartografía simultáneas) es una técnica fundamental de visión artificial que permite a un agente, como un robot o un dispositivo móvil, cartografiar simultáneamente un entorno desconocido y determinar su propia posición dentro de ese espacio utilizando únicamente datos de la cámara. A diferencia de los sistemas SLAM tradicionales, que dependen de costosos sensores láser, el SLAM visual utiliza cámaras estándar monoculares, estéreo o RGB-D. Mediante la extracción y el seguimiento de características visuales en fotogramas consecutivos, el sistema calcula la trayectoria de la cámara mientras construye progresivamente una nube de puntos 3D o un mapa denso de su entorno. Esta tecnología es fundamental para permitir la navegación autónoma y la percepción espacial en las máquinas.

Cómo funciona el SLAM visual

Un proceso típico de Visual SLAM consta de dos componentes principales: el front-end y el back-end. El front-end gestiona los datos de los sensores, lleva a cabo la extracción de características visuales (identificando esquinas o bordes distintivos) y compara estas características entre fotogramas para estimar el movimiento de la cámara a lo largo del tiempo. El back-end toma estos datos de odometría y aplica algoritmos de optimización como el ajuste de haces para corregir la deriva y refinar tanto el mapa del entorno como la pose estimada de la cámara.

Los avances recientes en 2024 y 2025 han cambiado el paradigma, pasando de las características tradicionales definidas manualmente —como las utilizadas en marcos heredados como ORB-SLAM3—a enfoques basados en el aprendizaje profundo. Los sistemas modernos ahora utilizan redes neuronales para el flujo óptico denso y la correspondencia de características, lo que los hace altamente resistentes al desenfoque de movimiento y a los entornos con poca textura. Además, las novedosas técnicas de renderizado que incorporan el «3D Gaussian Splatting» y los «Neural Radiance Fields» (NeRF) están permitiendo un mapeo denso fotorrealista en tiempo real que captura detalles geométricos intrincados mucho mejor que las nubes de puntos estándar.

SLAM visual frente a SLAM LiDAR frente al seguimiento de objetos

Comprender las diferencias entre las tecnologías de mapeo y de seguimiento es fundamental para implementar la solución adecuada :

  • SLAM visual frente a SLAM LiDAR: Mientras que el SLAM visual se basa en sensores de cámara económicos para percibir texturas visuales detalladas, el SLAM LiDAR utiliza rayos láser para medir con precisión las distancias físicas. El LiDAR es muy preciso, pero caro y consume mucha energía, mientras que el SLAM visual es rentable y proporciona información sobre el color, aunque puede tener dificultades en condiciones de poca luz.
  • SLAM visual frente al seguimiento de objetos: El seguimiento de objetos aísla y sigue el movimiento de entidades específicas a lo largo de los fotogramas de vídeo. El SLAM visual, por su parte, realiza un seguimiento del movimiento de la cámara con respecto al entorno estático para construir un mapa. Sin embargo, ambos conceptos se fusionan en el SLAM semántico, donde los modelos de detección de objetos identifican los objetos dinámicos para excluirlos deliberadamente del mapa estático.

Aplicaciones en el mundo real

El SLAM visual está profundamente integrado en los agentes de IA modernos y en los sistemas de computación espacial.

  • Robótica y drones autónomos: Los robots de reparto y los drones utilizan Visual SLAM para desplazarse por entornos sin cobertura GPS, como almacenes o zonas urbanas densamente urbanizadas. Al crear mapas en tiempo real, pueden planificar su ruta y esquivar obstáculos de forma autónoma.
  • Realidad aumentada (RA) y realidad virtual (RV): Las gafas inteligentes comerciales se basan en gran medida en la tecnología Visual SLAM para interpretar la geometría de una estancia. Esto permite a los sistemas de RA fijar con precisión objetos digitales, como un monitor virtual, sobre superficies físicas, de modo que permanezcan estables mientras el usuario se mueve.
  • Sistemas de navegación asistida: Los últimos avances en el SLAM semántico basado en el aprendizaje profundo se están utilizando para crear dispositivos de navegación portátiles destinados a personas con discapacidad visual, lo que garantiza un recorrido seguro y en tiempo real sorteando obstáculos físicos dinámicos.

Integración de SLAM semántico y YOLO26

Uno de los mayores retos del Visual SLAM es lidiar con entornos dinámicos en los que los objetos en movimiento distorsionan el mapa. El SLAM semántico resuelve este problema combinando el proceso tradicional de SLAM con modelos de visión de alta velocidad. Al utilizar Ultralytics para la segmentación o detección de instancias, el sistema puede etiquetar semánticamente la escena y filtrar los objetos en movimiento, lo que mejora drásticamente la precisión de la localización.

El siguiente bloque de código muestra cómo utilizar YOLO26 para identificar las coordenadas de objetos dinámicos (como personas y coches), de modo que el motor de coincidencia de características SLAM pueda ignorarlos explícitamente:

from ultralytics import YOLO

# Load Ultralytics YOLO26 to detect dynamic objects in the scene
model = YOLO("yolo26n.pt")
results = model("robot_camera_view.jpg")

# Extract bounding boxes of dynamic objects to exclude them from SLAM maps
for box in results[0].boxes:
    if int(box.cls) in [0, 2]:  # Example: Class 0 is person, Class 2 is car
        print(f"Ignore dynamic feature region at coordinates: {box.xyxy[0]}")

Al aprovechar el hardware moderno de IA de borde, como el NVIDIA , e integrar modelos a través de la Ultralytics , los desarrolladores pueden entrenar e implementar algoritmos de visión ligeros directamente junto con los flujos de trabajo SLAM. Para profundizar en las arquitecturas de cartografía autónoma, consulte la bibliografía reciente en IEEE Xplore o arXiv, y descubra cómo optimizar los flujos de trabajo de visión continua en la Ultralytics .

¡Construyamos juntos el futuro de la IA!

Comience su viaje con el futuro del aprendizaje automático