Explora la detección de objetos 3D: cómo LiDAR, las nubes de puntos y el aprendizaje profundo crean cuadros delimitadores 3D precisos para vehículos autónomos, robótica y RA.
La detección de objetos en 3D es una técnica avanzada de visión por computadora (CV) que identifica, clasifica y localiza objetos dentro de un entorno tridimensional. A diferencia de la detección tradicional de objetos en 2D, que dibuja un cuadro delimitador rectangular plano alrededor de un elemento en un plano de imagen , la detección de objetos en 3D estima un cuboide espacial. Este volumen se define mediante siete parámetros clave: las coordenadas centrales (x, y, z), las dimensiones físicas (longitud, anchura, altura) y la orientación (ángulo de dirección). Estos ricos datos espaciales permiten a los sistemas de inteligencia artificial (IA) percibir el tamaño, la distancia y la posición reales de los objetos en relación con el sensor, lo que reduce la brecha entre la percepción digital y la interacción física.
Para construir una comprensión volumétrica del mundo, los modelos de detección 3D requieren datos de entrada que contengan información geométrica . Mientras que el reconocimiento de imágenes estándar se basa en la intensidad de los píxeles, los métodos 3D suelen utilizar la fusión de sensores para combinar datos visuales con mediciones de profundidad.
Las fuentes de datos primarias incluyen:
La capacidad de percibir profundidad y volumen convierte a la detección de objetos 3D en el motor de percepción para las industrias que interactúan con el mundo físico.
La distinción entre estas dos tecnologías radica en la dimensionalidad de su salida y sus casos de uso previstos .
Para escenarios que requieren más datos de orientación que una simple caja cuadrada, pero menos sobrecarga computacional que el 3D completo, la detección de cajas delimitadoras orientadas (OBB) sirve como un término medio eficiente. OBB es totalmente compatible con YOLO26, el último Ultralytics , lo que permite detecciones rotadas en imágenes aéreas o líneas de fabricación complejas.
Mientras que la detección 3D completa a menudo requiere arquitecturas especializadas como VoxelNet o PointPillars, los detectores 2D de alta velocidad desempeñan un papel fundamental en los procesos 3D «basados en frustums». En este flujo de trabajo, un modelo como YOLO11 (o el más reciente YOLO26) detecta el objeto en la imagen 2D. A continuación, este cuadro 2D se extruye en el espacio 3D para aislar la sección relevante de la nube de puntos LiDAR , lo que reduce significativamente el área de búsqueda del modelo 3D.
El siguiente ejemplo muestra cómo realizar una inferencia con un modelo OBB utilizando el
ultralytics paquete, que proporciona detección sensible a la rotación, a menudo utilizada como precursor del análisis 3D completo
:
from ultralytics import YOLO
# Load a pre-trained YOLO26 model capable of Oriented Bounding Box detection
model = YOLO("yolo26n-obb.pt")
# Perform inference on an image (e.g., aerial view or slanted objects)
results = model("https://docs.ultralytics.com/datasets/obb/dota-v2/")
# Display the rotated bounding box coordinates
for result in results:
# returns center_x, center_y, width, height, rotation
print(result.obb.xywhr)