Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Détection d'objets en 3D

Découvrez la détection d'objets en 3D pour maîtriser la perception spatiale dans l'IA. Découvrez comment Ultralytics permet d'estimer la profondeur, l'orientation et le cadre de sélection 3D dans le monde réel.

La détection d'objets en 3D est une tâche sophistiquée de vision par ordinateur qui permet aux machines d'identifier, de localiser et de déterminer la taille des objets dans un espace tridimensionnel. Contrairement à la détection d'objets en 2D traditionnelle, qui trace un rectangle plat autour d'un élément dans une image, la détection d'objets en 3D estime un parallélépipède rectangle (une boîte en 3D) qui encapsule l'objet. Cela fournit des informations essentielles sur la profondeur, l' orientation (direction) et les dimensions spatiales précises, permettant aux systèmes de comprendre non seulement ce qu' est un objet, mais aussi il se trouve exactement par rapport au capteur dans le monde réel. Cette capacité est fondamentale pour les technologies qui doivent interagir physiquement avec leur environnement.

Comment fonctionne la détection d'objets en 3D

Pour percevoir la profondeur et le volume, les modèles de détection 3D s'appuient généralement sur des données plus riches que celles fournies par les caméras standard. Si certaines méthodes avancées permettent de déduire des structures 3D à partir d'images monoculaires (à objectif unique), la plupart des systèmes robustes utilisent les données provenant de capteurs LiDAR, de radars ou de caméras stéréo. Ces capteurs génèrent des nuages de points, c'est-à-dire des collections massives de points de données représentant la surface externe des objets.

Le processus comprend plusieurs étapes clés :

  • Acquisition des données : des capteurs capturent la géométrie de la scène. Le LiDAR, par exemple, utilise des impulsions laser pour mesurer les distances, créant ainsi une carte 3D précise.
  • Extraction de caractéristiques : les modèles d'apprentissage profond, souvent basés sur des réseaux neuronaux convolutifs (CNN) ou des transformateurs, traitent le nuage de points ou les données d'images fusionnées afin d'identifier des modèles.
  • Prédiction de la boîte englobante : le modèle génère une boîte englobante en 3D définie par ses coordonnées centrales (x, y, z), ses dimensions (longueur, largeur, hauteur) et son angle de rotation (lacet).
  • Classification : comme pour la classification d'images, le système attribue une étiquette (par exemple, « piéton », « véhicule ») à l'objet détecté.

Différence entre la détection 2D et 3D

Il est important de distinguer ces deux concepts apparentés.

  • Détection d'objets 2D : fonctionne sur des images plates (pixels). Elle vous indique qu'un objet se trouve dans la partie « supérieure gauche » ou « inférieure droite » d'une image, mais ne peut pas évaluer efficacement la distance ou la taille réelle sans repères de référence. Elle est idéale pour des tâches telles que l' identification de défauts de fabrication ou l' analyse de flux vidéo où la profondeur est moins critique.
  • Détection d'objets 3D : fonctionne dans un espace volumétrique (voxels ou points). Elle fournit la distance par rapport à la caméra (profondeur), la taille physique de l'objet et son orientation. Elle est essentielle pour éviter les collisions dans les environnements dynamiques.

Applications concrètes

La transition de la perception 2D à la perception 3D ouvre la voie à de puissants cas d'utilisation dans les secteurs où la sécurité et la perception spatiale sont primordiales.

  • Conduite autonome : les voitures autonomes s'appuient fortement sur la détection 3D pour naviguer en toute sécurité. En traitant les données provenant du LiDAR et des caméras, le véhicule peut detect voitures, les piétons et les obstacles, et calculer leur distance et leur vitesse exactes. Cela permet au système de perception de prédire les trajectoires et de prendre des décisions de freinage ou de direction dans des scénarios d'inférence en temps réel. Des entreprises telles que Waymo utilisent ces suites de capteurs lourds pour cartographier instantanément les environnements urbains .
  • Robotique et prélèvement dans des bacs : dans le domaine de la logistique et de l'entreposage, les robots doivent prélever des objets de formes et de tailles variées dans des bacs. La détection 3D permet à un bras robotisé de comprendre l'orientation d'un colis, de déterminer le meilleur point de préhension et de planifier un trajet sans collision pour déplacer l'objet. Cela améliore l'efficacité de l' IA dans le domaine de la logistique en automatisant des tâches manuelles complexes .

Mise en œuvre de la détection d'objets avec Ultralytics

Alors que la détection 3D complète nécessite souvent des architectures spécialisées de nuages de points, les détecteurs 2D modernes tels que YOLO26 sont de plus en plus utilisés comme composants dans les flux de travail pseudo-3D ou pour estimer la profondeur grâce à la mise à l'échelle des cadres de sélection. Pour les développeurs qui souhaitent former des modèles à partir de leurs propres ensembles de données, la Ultralytics offre un environnement simplifié pour l' annotation et la formation.

Voici un exemple simple illustrant comment exécuter une détection standard à l'aide dePython Ultralytics , qui constitue souvent la première étape d'un pipeline de perception plus large :

import cv2
from ultralytics import YOLO

# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")

# Perform inference on a local image
results = model("path/to/image.jpg")

# Visualize the results
for result in results:
    # Plot predictions on the image (returns a numpy array)
    im_array = result.plot()

    # Display using OpenCV
    cv2.imshow("Detections", im_array)
    cv2.waitKey(0)  # Press any key to close
    cv2.destroyAllWindows()

Défis et tendances futures

Malgré son utilité, la détection d'objets en 3D pose des défis en termes de coût de calcul et de prix des capteurs. Le traitement de millions de points dans un nuage de points nécessite GPU importante, ce qui rend difficile son déploiement sur des appareils périphériques. Cependant, les innovations en matière de quantification des modèles et d' architectures neuronales efficaces réduisent cette charge.

De plus, des techniques telles que la fusion de capteurs améliorent la précision en combinant les informations riches en couleurs des caméras avec les données de profondeur précises du LiDAR. À mesure que ces technologies mûrissent, nous pouvons nous attendre à voir la perception 3D intégrée dans des appareils plus accessibles, des lunettes de réalité augmentée aux appareils électroménagers intelligents.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant