Esplora il rilevamento di oggetti 3D: come LiDAR, nuvole di punti e deep learning creano caselle di delimitazione 3D accurate per veicoli autonomi, robotica e AR.
Il rilevamento di oggetti 3D è una sofisticata tecnica di tecnica di visione artificiale (CV) che identifica, classifica e localizza gli oggetti in uno spazio tridimensionale. A differenza del tradizionale rilevamento di oggetti 2D tradizionale 2D, che disegna un rettangolo rettangolare piatta attorno a un oggetto sul piano dell'immagine, il rilevamento di oggetti 3D stima un rettangolo di selezione 3D orientato, un cuboide definito dalle sue coordinate centrali (x, y, z), dimensioni (lunghezza, larghezza, altezza) e orientamento (angolo di direzione). Questa capacità consente sistemi di intelligenza artificiale (AI) di percepire le dimensioni, la distanza e la posizione degli oggetti nel mondo reale, il che è essenziale per l'interazione fisica e la navigazione. navigazione.
Per percepire la profondità e il volume, i modelli di rilevamento degli oggetti 3D si basano su fonti di dati che catturano la geometria spaziale. Mentre i metodi 2D si basano esclusivamente sull'intensità dei pixel, i metodi 3D elaborano i dati provenienti da sensori avanzati:
Le architetture specializzate elaborano questi dati. Ad esempio, PointNet elabora direttamente le nuvole di punti grezze, mentre VoxelNet divide lo spazio 3D in griglie volumetriche (voxel) per applicare (voxel) per applicare le operazioni convoluzionali. Questi modelli forniscono le coordinate 3D precise e l'orientamento degli oggetti, che permettono alle macchine di capire non solo cos'è un oggetto, ma anche dove si trova esattamente nel mondo fisico. mondo fisico.
La distinzione principale sta nella dimensionalità spaziale e nelle informazioni fornite:
Per le applicazioni che richiedono una consapevolezza spaziale parziale senza un overhead 3D completo, Oriented Bounding Box (OBB) serve come una via di mezzo, prevedendo caselle di delimitazione ruotate in 2D per adattarsi meglio a oggetti come navi o veicoli nelle viste aeree.
Il rilevamento di oggetti 3D è il motore di percezione per le industrie che interagiscono con il mondo fisico:
Mentre YOLO11 è principalmente un rilevatore 2D, ma svolge un ruolo fondamentale in molte pipeline di rilevamento 3D. Un approccio comune, noto come "rilevamento basato sul frustolo", utilizza un modello 2D ad alta velocità utilizza un modello 2D ad alta velocità per identificare la regione di interesse in un'immagine. Questo riquadro 2D viene poi estruso nello spazio 3D per ritagliare la nuvola di punti. per ritagliare la nuvola di punti, riducendo in modo significativo lo spazio di ricerca per il modello 3D.
L'esempio seguente mostra come eseguire la fase iniziale di rilevamento 2D utilizzando Ultralytics YOLO11, che servirebbe come proposta per un modulo di sollevamento 3D. come proposta per un modulo di sollevamento 3D:
from ultralytics import YOLO
# Load the YOLO11 model (optimized for 2D detection)
model = YOLO("yolo11n.pt")
# Run inference on an image (e.g., from a vehicle camera)
results = model("path/to/driving_scene.jpg")
# In a 3D pipeline, these 2D boxes (x, y, w, h) are used to
# isolate the corresponding region in the LiDAR point cloud.
for result in results:
for box in result.boxes:
print(f"Class: {int(box.cls)}, 2D Box: {box.xywh.numpy()}")