Scopri come la stima della profondità aggiunge una prospettiva 3D alla visione artificiale. Esplora tecniche come la profondità monoculare e la visione stereo utilizzando i modelli Ultralytics .
La stima della profondità è un processo fondamentale nella visione artificiale che determina la distanza degli oggetti da una telecamera, aggiungendo di fatto una terza dimensione alle immagini 2D. Calcolando la distanza di ogni pixel in un'immagine, questa tecnica crea una mappa di profondità, una rappresentazione in cui l'intensità dei pixel corrisponde alla distanza. Questa capacità imita la visione binoculare umana , consentendo alle macchine di percepire le relazioni spaziali e la geometria. Si tratta di una tecnologia fondamentale per consentire ai sistemi autonomi di navigare in sicurezza, comprendere l'ambiente circostante e interagire con gli oggetti fisici.
Esistono diversi modi per ottenere la stima della profondità, che vanno dalle soluzioni basate sull'hardware ad approcci puramente software che utilizzano l'intelligenza artificiale.
La capacità di misurare la distanza è rivoluzionaria in molti settori industriali, alimentando applicazioni che richiedono la percezione spaziale .
Sebbene esistano modelli di profondità specializzati, spesso è possibile dedurre le relazioni spaziali utilizzando i riquadri di rilevamento degli oggetti
come proxy della distanza in scenari semplici (riquadri più grandi spesso indicano oggetti più vicini). Ecco come caricare un modello
utilizzando il ultralytics pacchetto per detect , che è il primo passo in molte pipeline sensibili alla profondità.
from ultralytics import YOLO
# Load the YOLO26 model
model = YOLO("yolo26n.pt")
# Run inference on an image
results = model("path/to/image.jpg")
# Process results
for result in results:
# Get bounding boxes (xyxy format)
boxes = result.boxes.xyxy
# Iterate through detections
for box in boxes:
print(f"Detected object at: {box}")
È importante distinguere la stima della profondità dai termini correlati. Mentre il rilevamento degli oggetti identifica cosa e dove si trova un oggetto nello spazio 2D (utilizzando un riquadro di delimitazione), la stima della profondità identifica quanto è lontano (asse Z). Allo stesso modo, la segmentazione semantica classifica i pixel in categorie (ad esempio, strada, cielo, auto), mentre la stima della profondità assegna un valore di distanza a quegli stessi pixel.
I recenti progressi nell'intelligenza artificiale generativa stanno colmando il divario tra la visione 2D e quella 3D. Tecniche come i Neural Radiance Fields (NeRF) utilizzano più immagini 2D per ricostruire scene 3D complesse, basandosi in larga misura sui principi di profondità sottostanti. Inoltre, con il miglioramento delle tecniche di ottimizzazione dei modelli, sta diventando possibile eseguire stime di profondità altamente accurate su dispositivi AI edge. Ciò consente il calcolo spaziale in tempo reale su hardware di dimensioni ridotte come droni o occhiali intelligenti, facilitato da piattaforme come la Ultralytics per un addestramento e una distribuzione efficiente dei modelli.