Glosario

Detección de objetos 3D

Explora la detección de objetos 3D: cómo LiDAR, las nubes de puntos y el aprendizaje profundo crean cuadros delimitadores 3D precisos para vehículos autónomos, robótica y RA.

La detección de objetos en 3D es una técnica avanzada de visión por ordenador (CV) para identificar y localizar objetos en un espacio tridimensional. A diferencia de la detección de objetos en 2D, que funciona con imágenes planas, la detección en 3D proporciona información crucial sobre la profundidad, lo que permite a un sistema comprender el tamaño, la posición y la orientación de un objeto en el mundo real. Esta capacidad permite una conciencia espacial mucho más profunda y precisa, esencial para muchas aplicaciones modernas de IA.

Cómo funciona la detección de objetos en 3D

Los sistemas de detección de objetos 3D suelen basarse en sensores especializados para capturar la geometría del entorno circundante. Las fuentes de datos más comunes son:

LiDAR (Light Detection and Ranging): Esta tecnología utiliza impulsos láser para medir distancias exactas a los objetos, creando un mapa 3D detallado llamado nube de puntos. Una nube de puntos es una colección de puntos de datos en el espacio 3D, que representa con precisión las superficies externas de los objetos.
Cámaras estereoscópicas: Similares a la visión humana, las cámaras estereoscópicas utilizan dos o más lentes para captar imágenes desde ángulos ligeramente distintos. Al comparar estas imágenes, el sistema puede calcular la profundidad y crear una representación 3D de la escena.
Mapas de profundidad: Pueden ser generados por varios sensores, incluidas las cámaras estereoscópicas o las cámaras de tiempo de vuelo (ToF), y proporcionan un valor de distancia por píxel.

Una vez capturados estos datos 3D, modelos especializados de aprendizaje profundo los analizan para identificar y localizar objetos. Modelos como VoxelNet y VoteNet están diseñados para procesar nubes de puntos no estructuradas o cuadrículas de vóxeles (equivalentes en 3D de los píxeles) para predecir recuadros delimitadores en 3D alrededor de los objetos.

Detección de objetos 3D frente a 2D

La principal diferencia entre la detección de objetos 2D y 3D es la dimensión del espacio en la que operan. La detección 2D identifica la ubicación de un objeto en una imagen plana utilizando una caja rectangular definida por coordenadas X e Y. Sin embargo, carece de percepción de profundidad, lo que dificulta juzgar el verdadero tamaño o distancia de un objeto. Sin embargo, carece de percepción de profundidad, por lo que resulta difícil juzgar el tamaño real o la distancia de un objeto. Por ejemplo, en una imagen 2D, un gran camión alejado puede parecer del mismo tamaño que un coche pequeño que está mucho más cerca.

La detección de objetos en 3D supera esta limitación añadiendo el eje Z para la profundidad. Esto permite determinar no sólo qué es un objeto y dónde está en el fotograma, sino también a qué distancia se encuentra, sus dimensiones físicas y su orientación en el espacio 3D. Aunque esto proporciona una comprensión mucho más rica del entorno, también conlleva mayores costes computacionales y requisitos de datos más complejos.

Aplicaciones en el mundo real

La información espacial detallada que proporciona la detección de objetos en 3D tiene un valor incalculable en muchos campos.

Vehículos autónomos: Esta es una de las aplicaciones más críticas. Los coches autónomos de empresas como Waymo utilizan LiDAR y cámaras para construir un modelo 3D en tiempo real de su entorno. Esto permite al vehículo detectar con precisión otros coches, peatones y ciclistas, predecir sus movimientos y navegar con seguridad.
Robótica y automatización: En almacenes e instalaciones de fabricación, los robots utilizan la detección 3D para identificar, agarrar y mover objetos con gran precisión. También es fundamental para las aplicaciones de realidad aumentada (RA), ya que permite colocar objetos virtuales de forma realista e interactuar con el mundo físico.

Aunque la detección de objetos en 3D es más compleja y requiere más recursos que los métodos 2D, su capacidad para proporcionar una comprensión espacial precisa la convierte en una tecnología indispensable para la próxima generación de sistemas inteligentes.

Detección de objetos 3D

Entrena modelos Ultralytics YOLO para optimizar los flujos de trabajo en todas las industrias

Solución de licencias empresariales flexible para impulsar su innovación

Entrena modelos de IA en segundos con Ultralytics YOLO

Cómo funciona la detección de objetos en 3D

Detección de objetos 3D frente a 2D

Aplicaciones en el mundo real

Leer más en esta categoría

De los bits a los qubits: Cómo la optimización cuántica está cambiando la IA

Guía rápida para principiantes sobre cómo entrenar un modelo de IA

Desde Dubai con ideas: Principales conclusiones de la Cumbre GDG MENA-T 2025

Únete a la comunidad de Ultralytics