Explorez la détection d'objets en 3D : comment le LiDAR, les nuages de points et l'apprentissage profond construisent des boîtes de délimitation 3D précises pour les véhicules autonomes, la robotique et la réalité augmentée.
La détection d'objets en 3D est une technique technique sophistiquée de vision par ordinateur qui identifie, classe et localise des objets dans un espace tridimensionnel, classifie et localise des objets dans un espace tridimensionnel. Contrairement à la détection traditionnelle d'objets en 2D traditionnelle, qui dessine une boîte rectangulaire plate autour d'un objet sur le plan de l'image, la détection d'objets en rectangulaire autour d'un objet sur un plan d'image, la détection d'objets 3D estime une boîte de délimitation 3D orientée, un cuboïde défini par les coordonnées de son centre (x, y, z), ses dimensions (longueur, largeur, hauteur) et son orientation (angle de cap). Cette capacité permet aux systèmes d'intelligence artificielle aux systèmes d'intelligence artificielle (IA) de de percevoir la taille, la distance et la position des objets dans le monde réel, ce qui est essentiel pour l'interaction physique et la navigation. navigation.
Pour percevoir la profondeur et le volume, les modèles de détection d'objets en 3D s'appuient sur des sources de données qui capturent la géométrie spatiale. Alors que les méthodes 2D s'appuient uniquement sur l'intensité des pixels, les méthodes 3D traitent des données provenant de capteurs avancés :
Des architectures spécialisées traitent ces données. Par exemple, PointNet traite directement les nuages de points bruts, tandis que VoxelNet divise l'espace 3D en grilles volumétriques (voxels) pour appliquer des opérations convolutives. Ces modèles fournissent les coordonnées 3D précises et l'orientation des objets, permettant aux machines de comprendre non seulement ce qu'est un objet, mais aussi l'endroit exact où il se trouve dans le monde physique. physique.
La principale distinction réside dans la dimension spatiale et les informations fournies :
Pour les applications nécessitant une connaissance partielle de l'espace sans avoir recours à la 3D, boîte de délimitation orientée (OBB) sert de de prédire les boîtes de délimitation tournées en 2D pour mieux adapter les objets tels que les navires ou les véhicules dans les vues aériennes.
La détection d'objets en 3D est le moteur de perception des industries qui interagissent avec le monde physique :
Tout en YOLO11 est principalement un détecteur 2D, il joue un rôle essentiel dans de nombreux pipelines de détection 3D. Une approche courante, connue sous le nom de "détection basée sur les frustes", utilise un modèle 2D à grande vitesse pour identifier la région d'intérêt d'une image. utilise un modèle 2D à grande vitesse pour identifier la région d'intérêt dans une image. Cette boîte 2D est ensuite extrudée dans l'espace 3D pour recadrer le nuage de points, ce qui réduit considérablement l'espace de recherche du modèle 3D.
L'exemple suivant montre comment réaliser l'étape initiale de détection 2D en utilisant Ultralytics YOLO11, qui servira de proposition pour un module de levage 3D. qui servira de proposition pour un module de levage 3D :
from ultralytics import YOLO
# Load the YOLO11 model (optimized for 2D detection)
model = YOLO("yolo11n.pt")
# Run inference on an image (e.g., from a vehicle camera)
results = model("path/to/driving_scene.jpg")
# In a 3D pipeline, these 2D boxes (x, y, w, h) are used to
# isolate the corresponding region in the LiDAR point cloud.
for result in results:
for box in result.boxes:
print(f"Class: {int(box.cls)}, 2D Box: {box.xywh.numpy()}")