Explorez la détection d'objets en 3D : comment le LiDAR, les nuages de points et l'apprentissage profond construisent des boîtes de délimitation 3D précises pour les véhicules autonomes, la robotique et la réalité augmentée.
La détection d'objets en 3D est une technique avancée de vision par ordinateur (CV) qui identifie, classe et localise des objets dans un environnement tridimensionnel. Contrairement à la détection traditionnelle d'objets en 2D, qui trace un rectangle plat autour d'un élément sur un plan d'image , la détection d'objets en 3D estime un parallélépipède spatial. Ce volume est défini par sept paramètres clés : les coordonnées centrales (x, y, z), les dimensions physiques (longueur, largeur, hauteur) et l'orientation (angle de direction). Ces données spatiales riches permettent aux systèmes d'intelligence artificielle (IA) de percevoir la taille, la distance et la position réelles des objets par rapport au capteur, comblant ainsi le fossé entre la perception numérique et l'interaction physique.
Pour construire une compréhension volumétrique du monde, les modèles de détection 3D nécessitent des données d'entrée contenant des informations géométriques . Alors que la reconnaissance d'image standard repose sur l'intensité des pixels, les méthodes 3D utilisent souvent la fusion de capteurs pour combiner les données visuelles avec les mesures de profondeur.
Les principales sources de données comprennent :
La capacité à percevoir la profondeur et le volume fait de la détection d'objets en 3D le moteur de perception des industries qui interagissent avec le monde physique.
La distinction entre ces deux technologies réside dans la dimensionnalité de leur sortie et leurs cas d'utilisation prévus .
Pour les scénarios nécessitant plus de données d'orientation qu'un simple cadre carré, mais moins de puissance de calcul qu'un modèle 3D complet, la détection par boîte englobante orientée (OBB) constitue un compromis efficace . L'OBB est entièrement prise en charge par YOLO26, le dernier Ultralytics , qui permet des détections pivotées dans les images aériennes ou les chaînes de fabrication complexes.
Alors que la détection 3D complète nécessite souvent des architectures spécialisées telles que VoxelNet ou PointPillars, les détecteurs 2D à grande vitesse jouent un rôle essentiel dans les pipelines 3D « basés sur le frustum ». Dans ce flux de travail, un modèle tel que YOLO11 (ou le plus récent YOLO26) détecte l' objet dans l'image 2D. Cette boîte 2D est ensuite extrudée dans l'espace 3D afin d'isoler la section pertinente du nuage de points LiDAR , ce qui réduit considérablement la zone de recherche pour le modèle 3D.
L'exemple suivant montre comment effectuer une inférence avec un modèle OBB à l'aide de la fonction
ultralytics package, qui fournit une détection sensible à la rotation souvent utilisée comme précurseur à une analyse 3D complète
:
from ultralytics import YOLO
# Load a pre-trained YOLO26 model capable of Oriented Bounding Box detection
model = YOLO("yolo26n-obb.pt")
# Perform inference on an image (e.g., aerial view or slanted objects)
results = model("https://docs.ultralytics.com/datasets/obb/dota-v2/")
# Display the rotated bounding box coordinates
for result in results:
# returns center_x, center_y, width, height, rotation
print(result.obb.xywhr)