Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Detección de objetos 3D

Explora la detección de objetos 3D: cómo LiDAR, las nubes de puntos y el aprendizaje profundo crean cuadros delimitadores 3D precisos para vehículos autónomos, robótica y RA.

La detección de objetos 3D es una sofisticada técnica de visión por ordenador (CV) que identifica clasifica y localiza objetos en un espacio tridimensional. A diferencia de la detección de objetos detección de objetos en 2D, que dibuja un cuadro rectangular plana alrededor de un objeto en un plano de imagen, la estima un cuadro delimitador 3D orientado, un cuboide definido por sus coordenadas centrales (x, y, z), dimensiones (longitud, anchura, altura) y orientación (ángulo de dirección). Esta capacidad permite sistemas de inteligencia artificial (IA ) percibir el tamaño, la distancia y la posición de los objetos en el mundo real, lo que es esencial para la interacción física y la navegación. la navegación.

Cómo funciona la detección de objetos en 3D

Para percibir la profundidad y el volumen, los modelos de detección de objetos 3D se basan en fuentes de datos que capturan la geometría espacial. Mientras que los métodos 2D se basan únicamente en la intensidad de los píxeles, los métodos 3D procesan datos de sensores avanzados:

  • LiDAR (Detección y medición de distancias por luz): Emite impulsos láser para medir distancias precisas, generando una representación 3D dispersa conocida como nube de puntos.
  • Cámaras estereoscópicas: Utilizan dos lentes para simular la visión binocular, calculando la profundidad mediante mapas de disparidad para reconstruir la estructura 3D.
  • Cámaras monoculares: Utilizar aprendizaje profundo (DL) para inferir la profundidad de imágenes, a menudo denominadas técnicas "pseudo-LiDAR".

Las arquitecturas especializadas procesan estos datos. Por ejemplo, PointNet procesa directamente las nubes de puntos en bruto, mientras que VoxelNet divide el espacio 3D en cuadrículas volumétricas (vóxeles) para aplicar operaciones convolucionales. Estos modelos proporcionan las coordenadas 3D precisas y la orientación de los objetos, de los objetos, lo que permite a las máquinas comprender no sólo qué es un objeto, sino mundo físico.

Detección de objetos 3D frente a 2D

La principal distinción radica en la dimensionalidad espacial y la información proporcionada:

  • Detección de objetos 2D: Opera en el espacio de la imagen (píxeles). Produce un cuadro delimitador (min_x, min_y, max_x, max_y) que indica la posición de un objeto en el encuadre de la cámara pero carece de profundidad o tamaño absoluto.
  • Detección de objetos en 3D: Funciona en el espacio mundial (metros/unidades). Produce un cuboide 3D que tiene en cuenta profundidad, las dimensiones físicas y la rotación. Esto maneja mejor la oclusión y permite una medición precisa de la distancia. distancia.

Para aplicaciones que requieren una conciencia espacial parcial sin una sobrecarga 3D completa, detección de caja delimitadora orientada (OBB) sirve como un término medio, prediciendo cuadros delimitadores rotados en 2D para ajustarse mejor a objetos como barcos o vehículos en vistas aéreas.

Aplicaciones en el mundo real

La detección de objetos 3D es el motor de percepción de las industrias que interactúan con el mundo físico:

  • Vehículos autónomos: Los coches autónomos, como los desarrollados por Waymo, utilizan la detección 3D en LiDAR y datos de cámaras para track la velocidad, el rumbo y la distancia de otros vehículos y peatones para planificar trayectorias seguras. planificar trayectorias seguras.
  • Robótica: Los brazos industriales y los robots móviles fabricación se basan en la percepción 3D para objetos con posturas específicas o navegar por almacenes dinámicos sin colisiones.
  • Realidad aumentada (RA): Los dispositivos utilizan la detección 3D para anclar objetos virtuales a superficies del mundo real, para garantizar su correcta alineación con la geometría del entorno.

Integración con YOLO11

En YOLO11 es principalmente un detector 2D desempeña un papel fundamental en muchos procesos de detección 3D. Un enfoque común, conocido como "detección basada en frustum" utiliza un modelo 2D de alta velocidad para identificar la región de interés en una imagen. A continuación, este recuadro 2D se extruye en el espacio 3D para recortar la nube de puntos, lo que reduce considerablemente el espacio de búsqueda del modelo 3D.

En el siguiente ejemplo se muestra cómo realizar el paso inicial de detección 2D utilizando Ultralytics YOLO11, que podría servir como propuesta para un módulo de levantamiento 3D:

from ultralytics import YOLO

# Load the YOLO11 model (optimized for 2D detection)
model = YOLO("yolo11n.pt")

# Run inference on an image (e.g., from a vehicle camera)
results = model("path/to/driving_scene.jpg")

# In a 3D pipeline, these 2D boxes (x, y, w, h) are used to
# isolate the corresponding region in the LiDAR point cloud.
for result in results:
    for box in result.boxes:
        print(f"Class: {int(box.cls)}, 2D Box: {box.xywh.numpy()}")

Conceptos Relacionados

  • Estimación de la profundidad: Predice la distancia de cada píxel de una imagen respecto a la cámara. Aunque proporciona datos de profundidad, no identifica objetos individuales o sus dimensiones como hace la detección 3D.
  • Fusión de sensores: El proceso de combinar datos de múltiples sensores (por ejemplo, LiDAR, radar y cámaras) para mejorar la precisión y la fiabilidad de la detección 3D. fiabilidad de la detección 3D.
  • Conjunto de datos NuScenes: Un conjunto de datos públicos a gran escala para la conducción autónoma que proporciona anotaciones de recuadros delimitadores 3D para datos LiDAR y de cámara. LiDAR y datos de cámara, muy utilizado para la evaluación comparativa de modelos 3D.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora