¡Sintonice YOLO Vision 2025!
25 de septiembre de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024
Glosario

Estimación de la profundidad

Descubra cómo la estimación de la profundidad crea mapas de profundidad a partir de imágenes -estéreo, ToF, LiDAR y aprendizaje profundo monocular- para impulsar la robótica, la RA/VR y la percepción 3D.

La estimación de la profundidad es una tarea fundamental de la visión por ordenador que consiste en calcular la distancia de varios objetos de una escena desde el punto de vista de una cámara. A diferencia de las imágenes 2D estándar, que sólo capturan la altura y la anchura, la estimación de la profundidad añade una tercera dimensión, lo que permite a un sistema percibir el mundo en 3D. Este proceso genera un mapa de profundidad, que es esencialmente una imagen en la que el valor de cada píxel corresponde a su distancia desde la cámara. Esta capacidad es fundamental para que las máquinas comprendan las relaciones espaciales e interactúen con su entorno de una forma más significativa, similar a la visión humana.

Cómo funciona la estimación de la profundidad

Existen varias técnicas para lograr la estimación de la profundidad, desde métodos tradicionales que utilizan hardware especializado hasta enfoques modernos impulsados por el aprendizaje profundo.

  • Visión estereoscópica: Este método imita la visión binocular humana utilizando dos cámaras situadas a poca distancia unas de otras. Analizando las ligeras diferencias (disparidad) entre las dos imágenes, es posible triangular la distancia a los puntos de la escena. Se trata de un método clásico y fiable para captar la información de profundidad.
  • Cámaras de tiempo de vuelo (ToF): Estos sensores especializados emiten una señal luminosa (normalmente infrarroja) y miden el tiempo que tarda la luz en rebotar en un objeto y volver al sensor. Las cámaras ToF pueden crear mapas de profundidad de gran precisión en tiempo real.
  • LiDAR (Light Detection and Ranging): Utilizado a menudo en vehículos autónomos, el LiDAR funciona emitiendo pulsos láser y midiendo su tiempo de retorno para crear una nube de puntos 3D detallada del entorno. La tecnología LiDAR proporciona datos precisos sobre la profundidad, lo que la hace inestimable para una navegación segura.
  • Estimación monocular de la profundidad: Un avance significativo en la IA consiste en estimar la profundidad a partir de una sola imagen 2D. Los modelos de aprendizaje profundo, en particular las redes neuronales convolucionales (CNN), se entrenan en amplios conjuntos de datos para inferir señales de profundidad a partir de texturas, sombras y tamaños de objetos, de forma muy similar a como lo hace el cerebro humano.

Aplicaciones de la estimación de la profundidad

La capacidad de percibir la profundidad es crucial para una amplia gama de aplicaciones que requieren conciencia espacial.

En robótica, la estimación de la profundidad es fundamental para la navegación y la manipulación. Un robot industrial en una cadena de montaje utiliza datos de profundidad para agarrar y mover objetos con precisión, mejorando la eficiencia en la automatización de la fabricación. Del mismo modo, un robot móvil utiliza un mapa de profundidad para evitar obstáculos y planificar su trayectoria en un entorno dinámico como un almacén. Esta percepción 3D permite una interacción precisa y segura con el mundo físico.

La Realidad Aumentada (RA) y la Realidad Virtual (RV) dependen en gran medida de la estimación de la profundidad para crear experiencias inmersivas. Para que una aplicación de RA en un smartphone coloque un mueble virtual en una habitación real, primero debe comprender la geometría de la habitación. Al crear un mapa de profundidad detallado, el sistema puede garantizar que el objeto virtual se oculte e interactúe de forma realista con los objetos del mundo real, haciendo que la ilusión sea fluida y creíble.

Estimación de la profundidad frente a conceptos afines

Es importante diferenciar la estimación de la profundidad de términos similares en visión por ordenador.

  • Cálculo de distancias: Aunque están relacionados, el cálculo de distancias en visión por ordenador suele referirse a la medición de la distancia entre dos objetos dentro de un plano de imagen 2D (es decir, en píxeles). En cambio, la estimación de la profundidad mide la distancia de los objetos en el espacio 3D desde la propia cámara. Mientras que una simple distancia calibrada puede ser suficiente para algunas tareas, la estimación de la profundidad proporciona información espacial más detallada.
  • Detección de objetos 3D: La estimación de la profundidad es un factor clave para la detección de objetos en 3D. Mientras que la detección de objetos 2D dibuja un cuadro delimitador alrededor de un objeto en una imagen plana, la detección de objetos 3D coloca un cuboide 3D a su alrededor, definiendo su posición, tamaño y orientación en el espacio tridimensional. Esta detección avanzada sólo es posible con información precisa sobre la profundidad.

Únete a la comunidad de Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora
Enlace copiado al portapapeles