Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Rilevamento di oggetti 3D

Esplora il rilevamento di oggetti 3D: come LiDAR, nuvole di punti e deep learning creano caselle di delimitazione 3D accurate per veicoli autonomi, robotica e AR.

Il rilevamento di oggetti 3D è una tecnica avanzata di visione artificiale (CV) che identifica, classifica e localizza oggetti all'interno di un ambiente tridimensionale. A differenza del tradizionale rilevamento di oggetti 2D, che disegna un riquadro rettangolare piatto attorno a un elemento su un piano dell'immagine , il rilevamento di oggetti 3D stima un parallelepipedo spaziale. Questo volume è definito da sette parametri chiave: le coordinate centrali (x, y, z), le dimensioni fisiche (lunghezza, larghezza, altezza) e l'orientamento (angolo di direzione). Questi ricchi dati spaziali consentono ai sistemi di intelligenza artificiale (AI) di percepire le dimensioni reali, la distanza e la posizione degli oggetti rispetto al sensore, colmando il divario tra la percezione digitale e l'interazione fisica.

Come funziona il rilevamento degli oggetti 3D

Per costruire una comprensione volumetrica del mondo, i modelli di rilevamento 3D richiedono dati di input che contengano informazioni geometriche . Mentre il riconoscimento standard delle immagini si basa sull'intensità dei pixel, i metodi 3D spesso utilizzano la fusione dei sensori per combinare i dati visivi con le misurazioni di profondità.

Le fonti primarie dei dati includono:

  • LiDAR (Light Detection and Ranging): Questi sensori emettono impulsi laser per misurare distanze precise, generando una rappresentazione geometrica sparsa della scena nota come nuvola di punti.
  • Telecamere stereo: utilizzando due obiettivi per imitare la visione binoculare, questi sistemi calcolano la profondità attraverso mappe di disparità, consentendo la ricostruzione di strutture 3D da offset visivi.
  • Previsione della profondità monoculare: algoritmi avanzati di deep learning (DL) possono dedurre la profondità da una singola immagine 2D, una tecnica spesso chiamata "pseudo-LiDAR", sebbene in genere offra una precisione inferiore rispetto ai sensori attivi.

Applicazioni nel mondo reale

La capacità di percepire profondità e volume rende il rilevamento di oggetti 3D il motore di percezione per le industrie che interagiscono con il mondo fisico.

  • Veicoli autonomi: le auto a guida autonoma si basano sul rilevamento 3D per track traiettoria, la velocità e la direzione del traffico circostante. Elaborando i dati del Waymo Open Dataset o del nuScenes dataset, questi veicoli possono prevedere potenziali collisioni e pianificare percorsi sicuri in ambienti dinamici.
  • Robotica: I robot industriali utilizzano la percezione 3D per eseguire il "bin picking". Un braccio robotico deve comprendere l'esatta posizione 3D di un pezzo per afferrarlo correttamente da una pila. Questa capacità è integrata nei moderni flussi di lavoro utilizzando strumenti come Open3D per l'elaborazione dei dati.
  • Realtà aumentata (AR): per ancorare personaggi virtuali o informazioni su superfici del mondo reale, framework come Google utilizzano il rilevamento 3D per mappare la geometria dell'ambiente, garantendo che le risorse digitali si allineino perfettamente con il pavimento o i tavoli fisici.

Rilevamento di oggetti 3D e 2D

La distinzione tra queste due tecnologie risiede nella dimensionalità del loro output e nei loro casi d'uso previsti .

  • Rilevamento di oggetti 2D: opera nello spazio dello schermo (pixel). Consente l' inferenza in tempo reale per attività quali l' identificazione di una persona in un fotogramma video, ma non è in grado di indicare la distanza della persona in metri.
  • Rilevamento di oggetti 3D: opera nello spazio mondiale (metri). Gestisce efficacemente l'occlusione e fornisce i dati di coordinate necessari affinché un robot possa navigare fisicamente attorno a un oggetto.

Per scenari che richiedono più dati di orientamento rispetto a una semplice scatola quadrata ma meno carico computazionale rispetto al 3D completo, il rilevamento Oriented Bounding Box (OBB) rappresenta un efficiente compromesso. OBB è completamente supportato da YOLO26, l'ultimo Ultralytics , che consente rilevamenti ruotati nelle immagini aeree o in linee di produzione complesse.

Integrazione con Ultralytics YOLO

Mentre il rilevamento 3D completo richiede spesso architetture specializzate come VoxelNet o PointPillars, i rilevatori 2D ad alta velocità svolgono un ruolo fondamentale nelle pipeline 3D "basate su frustum". In questo flusso di lavoro, un modello come YOLO11 (o il più recente YOLO26) rileva l' oggetto nell'immagine 2D. Questo riquadro 2D viene quindi estruso nello spazio 3D per isolare la sezione rilevante del punto LiDAR cloud, riducendo significativamente l'area di ricerca per il modello 3D.

L'esempio seguente mostra come eseguire l'inferenza con un modello OBB utilizzando il ultralytics pacchetto, che fornisce il rilevamento sensibile alla rotazione spesso utilizzato come precursore dell'analisi 3D completa :

from ultralytics import YOLO

# Load a pre-trained YOLO26 model capable of Oriented Bounding Box detection
model = YOLO("yolo26n-obb.pt")

# Perform inference on an image (e.g., aerial view or slanted objects)
results = model("https://docs.ultralytics.com/datasets/obb/dota-v2/")

# Display the rotated bounding box coordinates
for result in results:
    # returns center_x, center_y, width, height, rotation
    print(result.obb.xywhr)

Concetti correlati

  • Stima della profondità: un compito di previsione pixel per pixel che crea una mappa di profondità di una scena. A differenza del rilevamento di oggetti, non identifica le singole istanze di oggetti o le loro classi.
  • Dati sintetici: scene 3D generate artificialmente utilizzate per addestrare i modelli quando i dati 3D etichettati del mondo reale sono scarsi o costosi da raccogliere.
  • PyTorch3D: una libreria che fornisce componenti efficienti e riutilizzabili per la ricerca nel campo della visione artificiale 3D con deep learning.

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora