Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Détection d'objets en 3D

Explorez la détection d'objets en 3D : comment le LiDAR, les nuages de points et l'apprentissage profond construisent des boîtes de délimitation 3D précises pour les véhicules autonomes, la robotique et la réalité augmentée.

La détection d'objets en 3D est une technique avancée de vision par ordinateur (CV) qui identifie, classe et localise des objets dans un environnement tridimensionnel. Contrairement à la détection traditionnelle d'objets en 2D, qui trace un rectangle plat autour d'un élément sur un plan d'image , la détection d'objets en 3D estime un parallélépipède spatial. Ce volume est défini par sept paramètres clés : les coordonnées centrales (x, y, z), les dimensions physiques (longueur, largeur, hauteur) et l'orientation (angle de direction). Ces données spatiales riches permettent aux systèmes d'intelligence artificielle (IA) de percevoir la taille, la distance et la position réelles des objets par rapport au capteur, comblant ainsi le fossé entre la perception numérique et l'interaction physique.

Comment fonctionne la détection d'objets en 3D

Pour construire une compréhension volumétrique du monde, les modèles de détection 3D nécessitent des données d'entrée contenant des informations géométriques . Alors que la reconnaissance d'image standard repose sur l'intensité des pixels, les méthodes 3D utilisent souvent la fusion de capteurs pour combiner les données visuelles avec les mesures de profondeur.

Les principales sources de données comprennent :

  • LiDAR (détection et télémétrie par la lumière): Ces capteurs émettent des impulsions laser pour mesurer des distances précises, générant une représentation géométrique clairsemée de la scène, appelée nuage de points.
  • Caméras stéréoscopiques: en utilisant deux objectifs pour imiter la vision binoculaire, ces systèmes calculent la profondeur à l'aide de cartes de disparité, ce qui permet la reconstruction de structures 3D à partir de décalages visuels.
  • Prédiction de profondeur monoculaire: les algorithmes avancés d'apprentissage profond (DL) peuvent déduire la profondeur à partir d'une seule image 2D, une technique souvent appelée « pseudo-LiDAR », bien qu'elle offre généralement une précision inférieure à celle des capteurs actifs.

Applications concrètes

La capacité à percevoir la profondeur et le volume fait de la détection d'objets en 3D le moteur de perception des industries qui interagissent avec le monde physique.

  • Véhicules autonomes: Les voitures autonomes s'appuient sur la détection 3D pour track trajectoire, la vitesse et la direction du trafic environnant. En traitant les données provenant du Waymo Open Dataset ou du nuScenes dataset, ces véhicules peuvent prédire les collisions potentielles et planifier des trajets sûrs dans des environnements dynamiques.
  • Robotique: les robots industriels utilisent la perception 3D pour effectuer le « bin picking ». Un bras robotisé doit comprendre la position 3D exacte d'une pièce pour la saisir correctement dans une pile. Cette capacité est intégrée dans les flux de travail modernes à l'aide d'outils tels que Open3D pour le traitement des données
  • Réalité augmentée (RA): pour ancrer des personnages ou des informations virtuels sur des surfaces réelles, des frameworks tels que Google utilisent la détection 3D pour cartographier la géométrie de l'environnement, garantissant ainsi que les ressources numériques s'alignent parfaitement avec le sol ou les tables physiques.

Détection d'objets en 3D ou en 2D

La distinction entre ces deux technologies réside dans la dimensionnalité de leur sortie et leurs cas d'utilisation prévus .

  • Détection d'objets 2D: fonctionne dans l'espace écran (pixels). Elle permet une inférence en temps réel pour des tâches telles que l' identification d'une personne dans une image vidéo, mais elle ne peut pas vous dire à quelle distance se trouve la personne en mètres.
  • Détection d'objets en 3D: fonctionne dans l'espace mondial (en mètres). Elle gère efficacement l'occlusion et fournit les données de coordonnées nécessaires à un robot pour naviguer physiquement autour d'un objet.

Pour les scénarios nécessitant plus de données d'orientation qu'un simple cadre carré, mais moins de puissance de calcul qu'un modèle 3D complet, la détection par boîte englobante orientée (OBB) constitue un compromis efficace . L'OBB est entièrement prise en charge par YOLO26, le dernier Ultralytics , qui permet des détections pivotées dans les images aériennes ou les chaînes de fabrication complexes.

Intégration avec Ultralytics YOLO

Alors que la détection 3D complète nécessite souvent des architectures spécialisées telles que VoxelNet ou PointPillars, les détecteurs 2D à grande vitesse jouent un rôle essentiel dans les pipelines 3D « basés sur le frustum ». Dans ce flux de travail, un modèle tel que YOLO11 (ou le plus récent YOLO26) détecte l' objet dans l'image 2D. Cette boîte 2D est ensuite extrudée dans l'espace 3D afin d'isoler la section pertinente du nuage de points LiDAR , ce qui réduit considérablement la zone de recherche pour le modèle 3D.

L'exemple suivant montre comment effectuer une inférence avec un modèle OBB à l'aide de la fonction ultralytics package, qui fournit une détection sensible à la rotation souvent utilisée comme précurseur à une analyse 3D complète :

from ultralytics import YOLO

# Load a pre-trained YOLO26 model capable of Oriented Bounding Box detection
model = YOLO("yolo26n-obb.pt")

# Perform inference on an image (e.g., aerial view or slanted objects)
results = model("https://docs.ultralytics.com/datasets/obb/dota-v2/")

# Display the rotated bounding box coordinates
for result in results:
    # returns center_x, center_y, width, height, rotation
    print(result.obb.xywhr)

Concepts connexes

  • Estimation de la profondeur: Tâche de prédiction au niveau des pixels qui crée une carte de profondeur d'une scène. Contrairement à la détection d'objets, elle n'identifie pas les instances d'objets individuels ni leurs classes.
  • Données synthétiques: scènes 3D générées artificiellement utilisées pour former des modèles lorsque les données 3D réelles étiquetées sont rares ou coûteuses à collecter.
  • PyTorch3D: bibliothèque fournissant des composants efficaces et réutilisables pour la recherche en vision par ordinateur 3D avec apprentissage profond.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant