Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Estimación de la profundidad

Descubra cómo la estimación de profundidad añade perspectiva 3D a la visión artificial. Explore técnicas como la profundidad monocular y la visión estereoscópica utilizando los modelos Ultralytics .

La estimación de profundidad es un proceso crítico en la visión por computadora que determina la distancia de los objetos desde una cámara, añadiendo efectivamente una tercera dimensión a las imágenes 2D. Al calcular la distancia de cada píxel en una imagen, esta técnica crea un mapa de profundidad, una representación en la que la intensidad del píxel corresponde a la distancia. Esta capacidad imita la visión binocular humana, permitiendo a las máquinas percibir las relaciones espaciales y la geometría. Es una tecnología fundamental para permitir que los sistemas autónomos naveguen con seguridad, comprendan su entorno e interactúen con objetos físicos.

Mecanismos y técnicas fundamentales

Hay varias formas de lograr la estimación de la profundidad, que van desde soluciones basadas en hardware hasta enfoques puramente impulsados por software que utilizan inteligencia artificial.

  • Sistemas de visión estereoscópica: Al igual que los ojos humanos, la visión estereoscópica utiliza dos cámaras colocadas una al lado de la otra. Los algoritmos analizan las ligeras diferencias, o disparidad, entre las imágenes izquierda y derecha para triangular la distancia. Esto depende en gran medida de la precisión de la correspondencia de características para identificar los mismos puntos en ambos fotogramas.
  • Estimación de profundidad monocular: este método avanzado estima la profundidad a partir de una sola imagen. Dado que una única foto en 2D carece de datos de profundidad inherentes, los modelos de aprendizaje profundo se entrenan con vastos conjuntos de datos para reconocer señales visuales como la perspectiva, el tamaño de los objetos y la oclusión. Las arquitecturas modernas, como las redes neuronales convolucionales (CNN), destacan en esta tarea, lo que permite obtener una estructura 3D a partir de cámaras estándar.
  • LiDAR y tiempo de vuelo (ToF): Los sensores activos como LiDAR (detección y medición de distancias por luz) y las cámaras de tiempo de vuelo emiten pulsos de luz y miden el tiempo que tardan en regresar. Estos métodos generan nubes de puntos muy precisas y se utilizan a menudo para recopilar datos de referencia para entrenar modelos de aprendizaje automático.

Aplicaciones en el mundo real

La capacidad de medir distancias está transformando muchos sectores, impulsando aplicaciones que requieren conciencia espacial.

  • Conducción autónoma: los coches autónomos se basan en la estimación de la profundidad para detect , medir la distancia a otros vehículos y navegar con seguridad por redes de carreteras complejas. Es fundamental para la detección de objetos en 3D para identificar peatones y ciclistas.
  • Robótica y automatización: los robots utilizan la percepción de la profundidad para tareas como la planificación de rutas y la manipulación de objetos. Por ejemplo, un robot de almacén necesita saber exactamente a qué distancia se encuentra una estantería para coger un paquete sin chocar con ella.
  • Realidad aumentada (RA): Para colocar objetos virtuales de forma convincente en una escena del mundo real, los dispositivos de RA deben comprender la geometría 3D del entorno. La estimación de la profundidad garantiza que los personajes virtuales puedan esconderse detrás de muebles reales, un concepto conocido como manejo de la oclusión.

Ejemplo de código: Estimación de profundidad monocular

Aunque existen modelos de profundidad especializados, a menudo se pueden inferir relaciones espaciales utilizando los cuadros delimitadores de detección de objetos como indicador de la distancia en escenarios sencillos (los cuadros más grandes suelen significar objetos más cercanos). A continuación se explica cómo cargar un modelo utilizando el ultralytics paquete para detect , que es el primer paso en muchos procesos que tienen en cuenta la profundidad.

from ultralytics import YOLO

# Load the YOLO26 model
model = YOLO("yolo26n.pt")

# Run inference on an image
results = model("path/to/image.jpg")

# Process results
for result in results:
    # Get bounding boxes (xyxy format)
    boxes = result.boxes.xyxy

    # Iterate through detections
    for box in boxes:
        print(f"Detected object at: {box}")

Relación con otros conceptos de visión artificial

Es importante distinguir la estimación de profundidad de términos relacionados. Mientras que la detección de objetos identifica qué es y dónde se encuentra un objeto en el espacio 2D (utilizando un cuadro delimitador), la estimación de profundidad identifica a qué distancia se encuentra (eje Z). Del mismo modo, la segmentación semántica clasifica los píxeles en categorías (por ejemplo, carretera, cielo, coche), mientras que la estimación de profundidad asigna un valor de distancia a esos mismos píxeles.

Avances en la IA espacial

Los recientes avances en IA generativa están reduciendo la brecha entre la visión 2D y 3D. Técnicas como Neural Radiance Fields (NeRF) utilizan múltiples imágenes 2D para reconstruir escenas 3D complejas, basándose en gran medida en principios de profundidad subyacentes. Además, a medida que mejoran las técnicas de optimización de modelos , cada vez es más factible realizar estimaciones de profundidad de alta precisión en dispositivos de IA periféricos. Esto permite la computación espacial en tiempo real en hardware tan pequeño como drones o gafas inteligentes, facilitado por plataformas como la Ultralytics para el entrenamiento y la implementación eficientes de modelos.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora