Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Détection d'objets en 3D

Explorez la détection d'objets en 3D : comment le LiDAR, les nuages de points et l'apprentissage profond construisent des boîtes de délimitation 3D précises pour les véhicules autonomes, la robotique et la réalité augmentée.

La détection d'objets en 3D est une technique technique sophistiquée de vision par ordinateur qui identifie, classe et localise des objets dans un espace tridimensionnel, classifie et localise des objets dans un espace tridimensionnel. Contrairement à la détection traditionnelle d'objets en 2D traditionnelle, qui dessine une boîte rectangulaire plate autour d'un objet sur le plan de l'image, la détection d'objets en rectangulaire autour d'un objet sur un plan d'image, la détection d'objets 3D estime une boîte de délimitation 3D orientée, un cuboïde défini par les coordonnées de son centre (x, y, z), ses dimensions (longueur, largeur, hauteur) et son orientation (angle de cap). Cette capacité permet aux systèmes d'intelligence artificielle aux systèmes d'intelligence artificielle (IA) de de percevoir la taille, la distance et la position des objets dans le monde réel, ce qui est essentiel pour l'interaction physique et la navigation. navigation.

Comment fonctionne la détection d'objets en 3D

Pour percevoir la profondeur et le volume, les modèles de détection d'objets en 3D s'appuient sur des sources de données qui capturent la géométrie spatiale. Alors que les méthodes 2D s'appuient uniquement sur l'intensité des pixels, les méthodes 3D traitent des données provenant de capteurs avancés :

  • LiDAR (détection et télémétrie par ondes lumineuses): Emet des impulsions laser pour mesurer des distances précises, générant une représentation 3D éparse connue sous le nom de nuage de points. nuage de points.
  • Caméras stéréo: utilisent deux lentilles pour simuler la vision binoculaire, en calculant la profondeur à l'aide de cartes de disparité pour reconstruire la structure 3D.
  • Caméras monoculaires: Utiliser l 'apprentissage profond (DL) pour déduire la profondeur à partir d'images d'images uniques, souvent appelées techniques "pseudo-LiDAR".

Des architectures spécialisées traitent ces données. Par exemple, PointNet traite directement les nuages de points bruts, tandis que VoxelNet divise l'espace 3D en grilles volumétriques (voxels) pour appliquer des opérations convolutives. Ces modèles fournissent les coordonnées 3D précises et l'orientation des objets, permettant aux machines de comprendre non seulement ce qu'est un objet, mais aussi l'endroit exact il se trouve dans le monde physique. physique.

Détection d'objets en 3D ou en 2D

La principale distinction réside dans la dimension spatiale et les informations fournies :

  • Détection d'objets en 2D: Fonctionne dans l'espace de l'image (pixels). Elle produit une boîte de délimitation (min_x, min_y, max_x, max_y) qui indique la position d'un objet dans le cadre de la caméra, mais manque de profondeur ou de taille absolue.
  • Détection d'objets en 3D: Fonctionne dans l'espace mondial (mètres/unités). Il produit un cuboïde 3D qui tient compte de la profondeur, des dimensions physiques et de la rotation. de la profondeur, des dimensions physiques et de la rotation. Cela permet de mieux gérer l'occlusion et de mesurer la distance avec précision. précise de la distance.

Pour les applications nécessitant une connaissance partielle de l'espace sans avoir recours à la 3D, boîte de délimitation orientée (OBB) sert de de prédire les boîtes de délimitation tournées en 2D pour mieux adapter les objets tels que les navires ou les véhicules dans les vues aériennes.

Applications concrètes

La détection d'objets en 3D est le moteur de perception des industries qui interagissent avec le monde physique :

  • Véhicules autonomes: Les voitures autonomes, telles que celles développées par Waymo, utilisent la détection 3D sur LiDAR et les données des caméras pour track vitesse, la direction et la distance des autres véhicules et des piétons afin de planifier des trajectoires sûres. trajectoires sûres.
  • Robotique: Les bras industriels et les robots mobiles fabrication s'appuient sur la perception 3D pour saisir des objets avec des poses spécifiques ou naviguer dans des entrepôts dynamiques sans collisions.
  • Réalité augmentée (RA): Les appareils utilisent la détection 3D pour ancrer des objets virtuels sur des surfaces réelles, s'assurer qu'ils s'alignent correctement sur la géométrie de l'environnement.

Intégration avec YOLO11

Tout en YOLO11 est principalement un détecteur 2D, il joue un rôle essentiel dans de nombreux pipelines de détection 3D. Une approche courante, connue sous le nom de "détection basée sur les frustes", utilise un modèle 2D à grande vitesse pour identifier la région d'intérêt d'une image. utilise un modèle 2D à grande vitesse pour identifier la région d'intérêt dans une image. Cette boîte 2D est ensuite extrudée dans l'espace 3D pour recadrer le nuage de points, ce qui réduit considérablement l'espace de recherche du modèle 3D.

L'exemple suivant montre comment réaliser l'étape initiale de détection 2D en utilisant Ultralytics YOLO11, qui servira de proposition pour un module de levage 3D. qui servira de proposition pour un module de levage 3D :

from ultralytics import YOLO

# Load the YOLO11 model (optimized for 2D detection)
model = YOLO("yolo11n.pt")

# Run inference on an image (e.g., from a vehicle camera)
results = model("path/to/driving_scene.jpg")

# In a 3D pipeline, these 2D boxes (x, y, w, h) are used to
# isolate the corresponding region in the LiDAR point cloud.
for result in results:
    for box in result.boxes:
        print(f"Class: {int(box.cls)}, 2D Box: {box.xywh.numpy()}")

Concepts connexes

  • Estimation de la profondeur: Prévoit la distance de chaque pixel d'une image par rapport à la caméra. Bien qu'elle fournisse des données sur la profondeur, elle n'identifie pas intrinsèquement les objets individuels ou leurs dimensions comme le fait la détection 3D. n'identifie pas intrinsèquement les objets individuels ou leurs dimensions comme le fait la détection 3D.
  • Fusion des capteurs: Le processus de combinaison de données provenant de plusieurs capteurs (par exemple, LiDAR, radar et caméras) afin d'améliorer la précision et la fiabilité de la détection 3D. précision et la fiabilité de la détection 3D.
  • Jeu de données NuScenes: Un ensemble de données publiques à grande échelle pour la conduite autonome qui fournit des annotations de boîtes de délimitation en 3D pour les données LiDAR et les données de caméra. et de caméras, largement utilisées pour l'évaluation des modèles 3D.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant