Esplora il rilevamento di oggetti 3D: come LiDAR, nuvole di punti e deep learning creano caselle di delimitazione 3D accurate per veicoli autonomi, robotica e AR.
Il rilevamento di oggetti 3D è una tecnica avanzata di visione artificiale (CV) che identifica, classifica e localizza oggetti all'interno di un ambiente tridimensionale. A differenza del tradizionale rilevamento di oggetti 2D, che disegna un riquadro rettangolare piatto attorno a un elemento su un piano dell'immagine , il rilevamento di oggetti 3D stima un parallelepipedo spaziale. Questo volume è definito da sette parametri chiave: le coordinate centrali (x, y, z), le dimensioni fisiche (lunghezza, larghezza, altezza) e l'orientamento (angolo di direzione). Questi ricchi dati spaziali consentono ai sistemi di intelligenza artificiale (AI) di percepire le dimensioni reali, la distanza e la posizione degli oggetti rispetto al sensore, colmando il divario tra la percezione digitale e l'interazione fisica.
Per costruire una comprensione volumetrica del mondo, i modelli di rilevamento 3D richiedono dati di input che contengano informazioni geometriche . Mentre il riconoscimento standard delle immagini si basa sull'intensità dei pixel, i metodi 3D spesso utilizzano la fusione dei sensori per combinare i dati visivi con le misurazioni di profondità.
Le fonti primarie dei dati includono:
La capacità di percepire profondità e volume rende il rilevamento di oggetti 3D il motore di percezione per le industrie che interagiscono con il mondo fisico.
La distinzione tra queste due tecnologie risiede nella dimensionalità del loro output e nei loro casi d'uso previsti .
Per scenari che richiedono più dati di orientamento rispetto a una semplice scatola quadrata ma meno carico computazionale rispetto al 3D completo, il rilevamento Oriented Bounding Box (OBB) rappresenta un efficiente compromesso. OBB è completamente supportato da YOLO26, l'ultimo Ultralytics , che consente rilevamenti ruotati nelle immagini aeree o in linee di produzione complesse.
Mentre il rilevamento 3D completo richiede spesso architetture specializzate come VoxelNet o PointPillars, i rilevatori 2D ad alta velocità svolgono un ruolo fondamentale nelle pipeline 3D "basate su frustum". In questo flusso di lavoro, un modello come YOLO11 (o il più recente YOLO26) rileva l' oggetto nell'immagine 2D. Questo riquadro 2D viene quindi estruso nello spazio 3D per isolare la sezione rilevante del punto LiDAR cloud, riducendo significativamente l'area di ricerca per il modello 3D.
L'esempio seguente mostra come eseguire l'inferenza con un modello OBB utilizzando il
ultralytics pacchetto, che fornisce il rilevamento sensibile alla rotazione spesso utilizzato come precursore dell'analisi 3D completa
:
from ultralytics import YOLO
# Load a pre-trained YOLO26 model capable of Oriented Bounding Box detection
model = YOLO("yolo26n-obb.pt")
# Perform inference on an image (e.g., aerial view or slanted objects)
results = model("https://docs.ultralytics.com/datasets/obb/dota-v2/")
# Display the rotated bounding box coordinates
for result in results:
# returns center_x, center_y, width, height, rotation
print(result.obb.xywhr)