Explora la detección de objetos 3D: cómo LiDAR, las nubes de puntos y el aprendizaje profundo crean cuadros delimitadores 3D precisos para vehículos autónomos, robótica y RA.
La detección de objetos 3D es una sofisticada técnica de visión por ordenador (CV) que identifica clasifica y localiza objetos en un espacio tridimensional. A diferencia de la detección de objetos detección de objetos en 2D, que dibuja un cuadro rectangular plana alrededor de un objeto en un plano de imagen, la estima un cuadro delimitador 3D orientado, un cuboide definido por sus coordenadas centrales (x, y, z), dimensiones (longitud, anchura, altura) y orientación (ángulo de dirección). Esta capacidad permite sistemas de inteligencia artificial (IA ) percibir el tamaño, la distancia y la posición de los objetos en el mundo real, lo que es esencial para la interacción física y la navegación. la navegación.
Para percibir la profundidad y el volumen, los modelos de detección de objetos 3D se basan en fuentes de datos que capturan la geometría espacial. Mientras que los métodos 2D se basan únicamente en la intensidad de los píxeles, los métodos 3D procesan datos de sensores avanzados:
Las arquitecturas especializadas procesan estos datos. Por ejemplo, PointNet procesa directamente las nubes de puntos en bruto, mientras que VoxelNet divide el espacio 3D en cuadrículas volumétricas (vóxeles) para aplicar operaciones convolucionales. Estos modelos proporcionan las coordenadas 3D precisas y la orientación de los objetos, de los objetos, lo que permite a las máquinas comprender no sólo qué es un objeto, sino mundo físico.
La principal distinción radica en la dimensionalidad espacial y la información proporcionada:
Para aplicaciones que requieren una conciencia espacial parcial sin una sobrecarga 3D completa, detección de caja delimitadora orientada (OBB) sirve como un término medio, prediciendo cuadros delimitadores rotados en 2D para ajustarse mejor a objetos como barcos o vehículos en vistas aéreas.
La detección de objetos 3D es el motor de percepción de las industrias que interactúan con el mundo físico:
En YOLO11 es principalmente un detector 2D desempeña un papel fundamental en muchos procesos de detección 3D. Un enfoque común, conocido como "detección basada en frustum" utiliza un modelo 2D de alta velocidad para identificar la región de interés en una imagen. A continuación, este recuadro 2D se extruye en el espacio 3D para recortar la nube de puntos, lo que reduce considerablemente el espacio de búsqueda del modelo 3D.
En el siguiente ejemplo se muestra cómo realizar el paso inicial de detección 2D utilizando Ultralytics YOLO11, que podría servir como propuesta para un módulo de levantamiento 3D:
from ultralytics import YOLO
# Load the YOLO11 model (optimized for 2D detection)
model = YOLO("yolo11n.pt")
# Run inference on an image (e.g., from a vehicle camera)
results = model("path/to/driving_scene.jpg")
# In a 3D pipeline, these 2D boxes (x, y, w, h) are used to
# isolate the corresponding region in the LiDAR point cloud.
for result in results:
for box in result.boxes:
print(f"Class: {int(box.cls)}, 2D Box: {box.xywh.numpy()}")