Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Rilevamento di oggetti 3D

Esplora il rilevamento di oggetti 3D: come LiDAR, nuvole di punti e deep learning creano caselle di delimitazione 3D accurate per veicoli autonomi, robotica e AR.

Il rilevamento di oggetti 3D è una sofisticata tecnica di tecnica di visione artificiale (CV) che identifica, classifica e localizza gli oggetti in uno spazio tridimensionale. A differenza del tradizionale rilevamento di oggetti 2D tradizionale 2D, che disegna un rettangolo rettangolare piatta attorno a un oggetto sul piano dell'immagine, il rilevamento di oggetti 3D stima un rettangolo di selezione 3D orientato, un cuboide definito dalle sue coordinate centrali (x, y, z), dimensioni (lunghezza, larghezza, altezza) e orientamento (angolo di direzione). Questa capacità consente sistemi di intelligenza artificiale (AI) di percepire le dimensioni, la distanza e la posizione degli oggetti nel mondo reale, il che è essenziale per l'interazione fisica e la navigazione. navigazione.

Come funziona il rilevamento degli oggetti 3D

Per percepire la profondità e il volume, i modelli di rilevamento degli oggetti 3D si basano su fonti di dati che catturano la geometria spaziale. Mentre i metodi 2D si basano esclusivamente sull'intensità dei pixel, i metodi 3D elaborano i dati provenienti da sensori avanzati:

  • LiDAR (Light Detection and Ranging): Emette impulsi laser per misurare distanze precise, generando una rappresentazione tridimensionale rada nota come nuvola di punti.
  • Telecamere stereo: Utilizzano due lenti per simulare la visione binoculare, calcolando la profondità attraverso mappe di disparità per ricostruire la struttura 3D.
  • Telecamere monoculari: Utilizzare apprendimento profondo (DL) per dedurre la profondità da singole immagini. immagini, spesso indicate come tecniche "pseudo-LiDAR".

Le architetture specializzate elaborano questi dati. Ad esempio, PointNet elabora direttamente le nuvole di punti grezze, mentre VoxelNet divide lo spazio 3D in griglie volumetriche (voxel) per applicare (voxel) per applicare le operazioni convoluzionali. Questi modelli forniscono le coordinate 3D precise e l'orientamento degli oggetti, che permettono alle macchine di capire non solo cos'è un oggetto, ma anche dove si trova esattamente nel mondo fisico. mondo fisico.

Rilevamento di oggetti 3D e 2D

La distinzione principale sta nella dimensionalità spaziale e nelle informazioni fornite:

  • Rilevamento di oggetti 2D: Opera nello spazio dell'immagine (pixel). Produce un rettangolo di selezione (min_x, min_y, max_x, max_y) che indica la posizione di un oggetto nell'inquadratura della telecamera, ma non la profondità o la dimensione assoluta.
  • Rilevamento di oggetti 3D: Opera nello spazio mondiale (metri/unità). Produce un cuboide 3D che tiene conto di per la profondità, le dimensioni fisiche e la rotazione. Questo permette di gestire meglio l'occlusione e di misurare con precisione la distanza. misurare con precisione la distanza.

Per le applicazioni che richiedono una consapevolezza spaziale parziale senza un overhead 3D completo, Oriented Bounding Box (OBB) serve come una via di mezzo, prevedendo caselle di delimitazione ruotate in 2D per adattarsi meglio a oggetti come navi o veicoli nelle viste aeree.

Applicazioni nel mondo reale

Il rilevamento di oggetti 3D è il motore di percezione per le industrie che interagiscono con il mondo fisico:

  • Veicoli autonomi: Le auto a guida autonoma, come quelle sviluppate da Waymo, utilizzano il rilevamento 3D su dati LiDAR e telecamere per tracciare la velocità, la direzione e la distanza da altri veicoli e pedoni. LiDAR e i dati delle telecamere per track la velocità, la direzione e la distanza di altri veicoli e pedoni e pianificare traiettorie sicure. traiettorie sicure.
  • Robotica: I bracci industriali e i robot mobili nella produzione si affidano alla percezione 3D per afferrare oggetti con pose specifiche o navigare attraverso magazzini dinamici senza collisioni.
  • Realtà aumentata (AR): I dispositivi utilizzano il rilevamento 3D per ancorare gli oggetti virtuali alle superfici del mondo reale, che si allineano correttamente alla geometria dell'ambiente.

Integrazione con YOLO11

Mentre YOLO11 è principalmente un rilevatore 2D, ma svolge un ruolo fondamentale in molte pipeline di rilevamento 3D. Un approccio comune, noto come "rilevamento basato sul frustolo", utilizza un modello 2D ad alta velocità utilizza un modello 2D ad alta velocità per identificare la regione di interesse in un'immagine. Questo riquadro 2D viene poi estruso nello spazio 3D per ritagliare la nuvola di punti. per ritagliare la nuvola di punti, riducendo in modo significativo lo spazio di ricerca per il modello 3D.

L'esempio seguente mostra come eseguire la fase iniziale di rilevamento 2D utilizzando Ultralytics YOLO11, che servirebbe come proposta per un modulo di sollevamento 3D. come proposta per un modulo di sollevamento 3D:

from ultralytics import YOLO

# Load the YOLO11 model (optimized for 2D detection)
model = YOLO("yolo11n.pt")

# Run inference on an image (e.g., from a vehicle camera)
results = model("path/to/driving_scene.jpg")

# In a 3D pipeline, these 2D boxes (x, y, w, h) are used to
# isolate the corresponding region in the LiDAR point cloud.
for result in results:
    for box in result.boxes:
        print(f"Class: {int(box.cls)}, 2D Box: {box.xywh.numpy()}")

Concetti correlati

  • Stima della profondità: Prevede la distanza di ogni pixel di un'immagine dalla telecamera. Pur fornendo dati sulla profondità, non identifica non identifica intrinsecamente i singoli oggetti o le loro dimensioni come fa il rilevamento 3D.
  • Fusione di sensori: Il processo di combinazione dei dati provenienti da più sensori (ad esempio, LiDAR, radar e telecamere) per migliorare la precisione e l'affidabilità del rilevamento 3D. affidabilità del rilevamento 3D.
  • Set di dati NuScenes: Un set di dati pubblici su larga scala per la guida autonoma che fornisce annotazioni di riquadri di delimitazione 3D per i dati LiDAR e delle telecamere. e telecamere, ampiamente utilizzato per l'analisi comparativa dei modelli 3D.

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora