Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Detección de objetos 3D

Explora la detección de objetos en 3D para dominar la percepción espacial en la IA. Descubre cómo Ultralytics potencia la estimación de la profundidad, la orientación y el cuadro delimitador en 3D en el mundo real.

La detección de objetos en 3D es una sofisticada tarea de visión artificial que permite a las máquinas identificar, localizar y determinar el tamaño de los objetos dentro de un espacio tridimensional. A diferencia de la detección tradicional de objetos en 2D, que dibuja un cuadro delimitador plano alrededor de un elemento en una imagen, la detección de objetos en 3D estima un cuboide (una caja en 3D) que encapsula el objeto. Esto proporciona información crítica sobre la profundidad, la orientación (dirección) y las dimensiones espaciales precisas, lo que permite a los sistemas comprender no solo qué es un objeto , sino también dónde se encuentra exactamente en relación con el sensor en el mundo real. Esta capacidad es fundamental para las tecnologías que necesitan interactuar físicamente con su entorno.

Cómo funciona la detección de objetos en 3D

Para percibir la profundidad y el volumen, los modelos de detección 3D suelen basarse en entradas de datos más ricas que las que proporcionan las cámaras estándar. Aunque algunos métodos avanzados pueden inferir estructuras 3D a partir de imágenes monoculares (de una sola lente), los sistemas más robustos utilizan datos de sensores LiDAR, radares o cámaras estéreo. Estos sensores generan nubes de puntos, es decir, enormes colecciones de puntos de datos que representan la superficie externa de los objetos.

El proceso implica varios pasos clave:

  • Adquisición de datos: Los sensores capturan la geometría de la escena. El LiDAR, por ejemplo, utiliza pulsos láser para medir distancias, creando un mapa 3D preciso.
  • Extracción de características: Los modelos de aprendizaje profundo, a menudo basados en redes neuronales convolucionales (CNN) o transformadores, procesan la nube de puntos o los datos de imágenes fusionadas para identificar patrones.
  • Predicción del cuadro delimitador: El modelo genera un cuadro delimitador 3D definido por sus coordenadas centrales (x, y, z), dimensiones (longitud, anchura, altura) y ángulo de rotación (guiñada).
  • Clasificación: similar a la clasificación de imágenes, el sistema asigna una etiqueta (por ejemplo, «peatón», «vehículo») al objeto detectado.

Diferencia entre la detección 2D y 3D

Es importante distinguir entre estos dos conceptos relacionados.

  • Detección de objetos en 2D: funciona con imágenes planas (píxeles). Indica si un objeto se encuentra en la «parte superior izquierda» o «parte inferior derecha» de un fotograma, pero no puede determinar eficazmente la distancia o el tamaño real sin marcadores de referencia. Es ideal para tareas como identificar defectos de fabricación o analizar señales de vídeo en las que la profundidad es menos importante.
  • Detección de objetos 3D: Opera en espacio volumétrico (vóxeles o puntos). Proporciona la distancia desde la cámara (profundidad), el tamaño físico del objeto y su orientación. Esto es esencial para evitar colisiones en entornos dinámicos.

Aplicaciones en el mundo real

La transición de la percepción 2D a la 3D abre la puerta a potentes casos de uso en sectores en los que la seguridad y la conciencia espacial son primordiales.

  • Conducción autónoma: los coches autónomos dependen en gran medida de la detección 3D para circular con seguridad. Al procesar los datos del LiDAR y las cámaras, el vehículo puede detect coches, peatones y obstáculos, calculando su distancia y velocidad exactas. Esto permite al sistema de percepción predecir trayectorias y tomar decisiones de frenado o giro en escenarios de inferencia en tiempo real. Empresas como Waymo utilizan estos potentes conjuntos de sensores para cartografiar entornos urbanos al instante.
  • Robótica y recogida de contenedores: En logística y almacenamiento, los robots deben recoger objetos de diferentes formas y tamaños de los contenedores. La detección 3D permite que un brazo robótico comprenda la orientación de un paquete, determine el mejor punto de agarre y planifique una trayectoria sin colisiones para mover el artículo. Esto mejora la eficiencia de la IA en logística al automatizar tareas manuales complejas .

Implementación de la detección de objetos con Ultralytics

Mientras que la detección 3D completa a menudo requiere arquitecturas especializadas de nube de puntos, los detectores 2D modernos como YOLO26 se utilizan cada vez más como componente en flujos de trabajo pseudo-3D o para estimar la profundidad mediante el escalado de cuadros delimitadores. Para los desarrolladores que deseen entrenar modelos con sus propios conjuntos de datos, la Ultralytics ofrece un entorno optimizado para la anotación y el entrenamiento.

A continuación se muestra un ejemplo sencillo de cómo ejecutar la detección estándar utilizando laPython Ultralytics , que suele ser el primer paso en un proceso de percepción más amplio:

import cv2
from ultralytics import YOLO

# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")

# Perform inference on a local image
results = model("path/to/image.jpg")

# Visualize the results
for result in results:
    # Plot predictions on the image (returns a numpy array)
    im_array = result.plot()

    # Display using OpenCV
    cv2.imshow("Detections", im_array)
    cv2.waitKey(0)  # Press any key to close
    cv2.destroyAllWindows()

Retos y tendencias futuras

A pesar de su utilidad, la detección de objetos en 3D se enfrenta a retos relacionados con el coste computacional y el gasto en sensores. Procesar millones de puntos en una nube de puntos requiere GPU significativa, lo que dificulta su implementación en dispositivos periféricos. Sin embargo, las innovaciones en la cuantificación de modelos y las arquitecturas neuronales eficientes están reduciendo esta carga.

Además, técnicas como la fusión de sensores están mejorando la precisión al combinar la rica información de color de las cámaras con los precisos datos de profundidad del LiDAR. A medida que estas tecnologías maduren, podemos esperar ver la percepción 3D integrada en dispositivos más accesibles, desde gafas de realidad aumentada hasta electrodomésticos inteligentes.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora