Descubra cómo la estimación de profundidad añade perspectiva 3D a la visión artificial. Explore técnicas como la profundidad monocular y la visión estereoscópica utilizando los modelos Ultralytics .
La estimación de profundidad es un proceso crítico en la visión por computadora que determina la distancia de los objetos desde una cámara, añadiendo efectivamente una tercera dimensión a las imágenes 2D. Al calcular la distancia de cada píxel en una imagen, esta técnica crea un mapa de profundidad, una representación en la que la intensidad del píxel corresponde a la distancia. Esta capacidad imita la visión binocular humana, permitiendo a las máquinas percibir las relaciones espaciales y la geometría. Es una tecnología fundamental para permitir que los sistemas autónomos naveguen con seguridad, comprendan su entorno e interactúen con objetos físicos.
Hay varias formas de lograr la estimación de la profundidad, que van desde soluciones basadas en hardware hasta enfoques puramente impulsados por software que utilizan inteligencia artificial.
La capacidad de medir distancias está transformando muchos sectores, impulsando aplicaciones que requieren conciencia espacial.
Aunque existen modelos de profundidad especializados, a menudo se pueden inferir relaciones espaciales utilizando los cuadros delimitadores de detección de objetos
como indicador de la distancia en escenarios sencillos (los cuadros más grandes suelen significar objetos más cercanos). A continuación se explica cómo cargar un modelo
utilizando el ultralytics paquete para detect , que es el primer paso en muchos procesos que tienen en cuenta la profundidad.
from ultralytics import YOLO
# Load the YOLO26 model
model = YOLO("yolo26n.pt")
# Run inference on an image
results = model("path/to/image.jpg")
# Process results
for result in results:
# Get bounding boxes (xyxy format)
boxes = result.boxes.xyxy
# Iterate through detections
for box in boxes:
print(f"Detected object at: {box}")
Es importante distinguir la estimación de profundidad de términos relacionados. Mientras que la detección de objetos identifica qué es y dónde se encuentra un objeto en el espacio 2D (utilizando un cuadro delimitador), la estimación de profundidad identifica a qué distancia se encuentra (eje Z). Del mismo modo, la segmentación semántica clasifica los píxeles en categorías (por ejemplo, carretera, cielo, coche), mientras que la estimación de profundidad asigna un valor de distancia a esos mismos píxeles.
Los recientes avances en IA generativa están reduciendo la brecha entre la visión 2D y 3D. Técnicas como Neural Radiance Fields (NeRF) utilizan múltiples imágenes 2D para reconstruir escenas 3D complejas, basándose en gran medida en principios de profundidad subyacentes. Además, a medida que mejoran las técnicas de optimización de modelos , cada vez es más factible realizar estimaciones de profundidad de alta precisión en dispositivos de IA periféricos. Esto permite la computación espacial en tiempo real en hardware tan pequeño como drones o gafas inteligentes, facilitado por plataformas como la Ultralytics para el entrenamiento y la implementación eficientes de modelos.