Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Detección de objetos 3D

Explora la detección de objetos 3D: cómo LiDAR, las nubes de puntos y el aprendizaje profundo crean cuadros delimitadores 3D precisos para vehículos autónomos, robótica y RA.

La detección de objetos en 3D es una técnica avanzada de visión por computadora (CV) que identifica, clasifica y localiza objetos dentro de un entorno tridimensional. A diferencia de la detección tradicional de objetos en 2D, que dibuja un cuadro delimitador rectangular plano alrededor de un elemento en un plano de imagen , la detección de objetos en 3D estima un cuboide espacial. Este volumen se define mediante siete parámetros clave: las coordenadas centrales (x, y, z), las dimensiones físicas (longitud, anchura, altura) y la orientación (ángulo de dirección). Estos ricos datos espaciales permiten a los sistemas de inteligencia artificial (IA) percibir el tamaño, la distancia y la posición reales de los objetos en relación con el sensor, lo que reduce la brecha entre la percepción digital y la interacción física.

Cómo funciona la detección de objetos en 3D

Para construir una comprensión volumétrica del mundo, los modelos de detección 3D requieren datos de entrada que contengan información geométrica . Mientras que el reconocimiento de imágenes estándar se basa en la intensidad de los píxeles, los métodos 3D suelen utilizar la fusión de sensores para combinar datos visuales con mediciones de profundidad.

Las fuentes de datos primarias incluyen:

  • LiDAR (detección y medición de distancias por luz): Estos sensores emiten pulsos láser para medir distancias precisas, generando una representación geométrica dispersa de la escena conocida como nube de puntos.
  • Cámaras estéreo: mediante el uso de dos lentes para imitar la visión binocular, estos sistemas calculan la profundidad a través de mapas de disparidad, lo que permite la reconstrucción de estructuras 3D a partir de desplazamientos visuales.
  • Predicción de profundidad monocular: Los algoritmos avanzados de aprendizaje profundo (DL) pueden inferir la profundidad a partir de una sola imagen 2D, una técnica que a menudo se denomina «pseudo-LiDAR», aunque generalmente ofrece una menor precisión que los sensores activos.

Aplicaciones en el mundo real

La capacidad de percibir profundidad y volumen convierte a la detección de objetos 3D en el motor de percepción para las industrias que interactúan con el mundo físico.

  • Vehículos autónomos: Los coches autónomos se basan en la detección 3D para track trayectoria, la velocidad y la dirección del tráfico circundante. Al procesar datos del conjunto de datos abiertos de Waymo o del conjunto de datos nuScenes, estos vehículos pueden predecir posibles colisiones y planificar rutas seguras a través de entornos dinámicos.
  • Robótica: Los robots industriales utilizan la percepción 3D para realizar la «recogida de contenedores». Un brazo robótico debe comprender la posición 3D exacta de una pieza para poder cogerla correctamente de una pila. Esta capacidad está integrada en los flujos de trabajo modernos mediante herramientas como Open3D para el procesamiento de datos.
  • Realidad aumentada (RA): para anclar personajes o información virtuales a superficies del mundo real, marcos como Google utilizan la detección 3D para mapear la geometría del entorno, lo que garantiza que los activos digitales se alineen perfectamente con el suelo o las mesas físicas.

Detección de objetos 3D frente a 2D

La distinción entre estas dos tecnologías radica en la dimensionalidad de su salida y sus casos de uso previstos .

  • Detección de objetos 2D: funciona en el espacio de la pantalla (píxeles). Permite la inferencia en tiempo real para tareas como identificar a una persona en un fotograma de vídeo, pero no puede decirte a qué distancia se encuentra la persona en metros.
  • Detección de objetos en 3D: Funciona en el espacio mundial (metros). Gestiona eficazmente la oclusión y proporciona los datos de coordenadas necesarios para que un robot pueda navegar físicamente alrededor de un objeto.

Para escenarios que requieren más datos de orientación que una simple caja cuadrada, pero menos sobrecarga computacional que el 3D completo, la detección de cajas delimitadoras orientadas (OBB) sirve como un término medio eficiente. OBB es totalmente compatible con YOLO26, el último Ultralytics , lo que permite detecciones rotadas en imágenes aéreas o líneas de fabricación complejas.

Integración con Ultralytics YOLO

Mientras que la detección 3D completa a menudo requiere arquitecturas especializadas como VoxelNet o PointPillars, los detectores 2D de alta velocidad desempeñan un papel fundamental en los procesos 3D «basados en frustums». En este flujo de trabajo, un modelo como YOLO11 (o el más reciente YOLO26) detecta el objeto en la imagen 2D. A continuación, este cuadro 2D se extruye en el espacio 3D para aislar la sección relevante de la nube de puntos LiDAR , lo que reduce significativamente el área de búsqueda del modelo 3D.

El siguiente ejemplo muestra cómo realizar una inferencia con un modelo OBB utilizando el ultralytics paquete, que proporciona detección sensible a la rotación, a menudo utilizada como precursor del análisis 3D completo :

from ultralytics import YOLO

# Load a pre-trained YOLO26 model capable of Oriented Bounding Box detection
model = YOLO("yolo26n-obb.pt")

# Perform inference on an image (e.g., aerial view or slanted objects)
results = model("https://docs.ultralytics.com/datasets/obb/dota-v2/")

# Display the rotated bounding box coordinates
for result in results:
    # returns center_x, center_y, width, height, rotation
    print(result.obb.xywhr)

Conceptos Relacionados

  • Estimación de profundidad: Una tarea de predicción por píxeles que crea un mapa de profundidad de una escena. A diferencia de la detección de objetos, no identifica instancias de objetos individuales ni sus clases.
  • Datos sintéticos: Escenas 3D generadas artificialmente que se utilizan para entrenar modelos cuando los datos 3D etiquetados del mundo real son escasos o costosos de recopilar.
  • PyTorch3D: Una biblioteca que proporciona componentes eficientes y reutilizables para la investigación en visión artificial 3D con aprendizaje profundo.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora