Box di delimitazione
Scoprite come i bounding box consentono il rilevamento degli oggetti, l'intelligenza artificiale e i sistemi di apprendimento automatico. Esplorate il loro ruolo nelle applicazioni di computer vision!
Un rettangolo di delimitazione è un'annotazione rettangolare utilizzata nella computer vision per indicare la posizione di un oggetto all'interno di un'immagine o di un fotogramma video. È un componente fondamentale del rilevamento degli oggetti, in quanto fornisce un modo semplice ma efficace per definire la posizione e la scala di un oggetto. Nell'apprendimento automatico, i modelli vengono addestrati su grandi insiemi di immagini con bounding box etichettati per imparare a identificare e localizzare gli oggetti da soli. L'output di questi modelli include le coordinate del riquadro, un'etichetta di classe (ad esempio, "auto", "persona") e un punteggio di confidenza che indica la certezza della previsione del modello.
Come funzionano le caselle di delimitazione
Un rettangolo di selezione è tipicamente definito da un insieme di coordinate che ne specificano la posizione e le dimensioni. Le rappresentazioni più comuni sono:
- Coordinate dell'angolo superiore sinistro con larghezza e altezza (x, y, w, h): Questo formato specifica le coordinate x e y dell'angolo superiore sinistro, insieme alla larghezza e all'altezza del riquadro.
- Punti d'angolo (x_min, y_min, x_max, y_max): Questo formato definisce le coordinate degli angoli superiore sinistro e inferiore destro del rettangolo.
Queste coordinate vengono utilizzate per addestrare i modelli di deep learning, che imparano a prevedere questi valori per nuove immagini non viste. L'accuratezza di un riquadro di delimitazione previsto viene spesso valutata utilizzando una metrica chiamata Intersection over Union (IoU), che misura la sovrapposizione tra il riquadro previsto e quello di verità. I moderni modelli di rilevamento degli oggetti, come Ultralytics YOLO11, sono altamente ottimizzati per generare bounding box precisi in tempo reale.
Tipi di rettangoli di selezione
Esistono due tipi principali di rettangoli di selezione:
- Riquadro di delimitazione allineato agli assi: È il tipo più comune, in cui i lati del rettangolo sono allineati con gli assi orizzontale e verticale dell'immagine. Sono semplici da rappresentare ed elaborare, ma possono essere inefficienti per gli oggetti ruotati o di forma irregolare, poiché il rettangolo può includere un'area di sfondo significativa.
- Bounding box orientato (OBB): Questo tipo di rettangolo include un parametro aggiuntivo per la rotazione, che gli consente di adattarsi meglio agli oggetti inclinati. Gli OBB sono particolarmente utili in applicazioni specializzate come l'analisi di immagini satellitari o di immagini aeree da droni, dove gli oggetti sono spesso visti da diverse angolazioni. Modelli come YOLO11 supportano il rilevamento orientato degli oggetti per gestire meglio questi scenari.
Relazione con altri concetti
I riquadri di delimitazione sono strettamente correlati ad altre attività di computer vision, ma hanno uno scopo distinto.
- Rilevamento di oggetti e segmentazione di immagini: Mentre il rilevamento degli oggetti utilizza i riquadri di delimitazione per individuare gli oggetti, la segmentazione delle immagini offre una comprensione più dettagliata della forma di un oggetto. La segmentazione delle istanze, ad esempio, fa un passo avanti delineando il confine esatto a livello di pixel di ogni oggetto distinto, anziché limitarsi a disegnare un rettangolo intorno ad esso. Questo è utile per le applicazioni che richiedono informazioni precise sulla forma. Per ulteriori informazioni, consultare la guida alla segmentazione delle istanze.
- Bounding Box vs. Anchor Box: In alcuni modelli di rilevamento degli oggetti, noti come rilevatori basati sulle ancore, vengono utilizzati dei riquadri predefiniti chiamati "riquadri di ancoraggio" come riferimenti per aiutare il modello a prevedere il riquadro di delimitazione finale. Al contrario, i rilevatori privi di ancore predicono i riquadri di delimitazione direttamente senza queste preimpostazioni, spesso semplificando l'architettura del modello.
Applicazioni in scenari reali
Le caselle di delimitazione sono parte integrante di numerose applicazioni pratiche di IA:
- Veicoli autonomi: Le auto a guida autonoma si basano molto sul rilevamento degli oggetti per identificare e localizzare pedoni, altri veicoli e semafori utilizzando caselle di delimitazione. Questa consapevolezza spaziale, spesso ottenuta con modelli di deep learning, è fondamentale per una navigazione sicura. Aziende come Waymo mettono in mostra questa tecnologia in modo estensivo. Ultralytics offre approfondimenti sull'IA nelle auto a guida autonoma.
- Analitica del commercio al dettaglio: Nel settore della vendita al dettaglio, le bounding box aiutano nella gestione dell'inventario guidata dall'intelligenza artificiale, rilevando i prodotti sugli scaffali, monitorando i livelli delle scorte e analizzando il comportamento dei clienti attraverso i modelli di traffico pedonale(conteggio degli oggetti).
- Sicurezza e sorveglianza: Le Bounding Box consentono ai sistemi di monitoraggio automatizzati di rilevare e tracciare individui o oggetti in tempo reale, attivando avvisi per attività sospette. Questo aspetto è fondamentale per le applicazioni edilizie come i sistemi di allarme di sicurezza.
- Analisi delle immagini mediche: In campo sanitario, i riquadri di delimitazione aiutano i medici a evidenziare potenziali anomalie, come i tumori, nelle scansioni, favorendo una diagnosi più rapida. Esempi di questo tipo sono presenti in Radiologia: Ricerca sull'intelligenza artificiale e nella nostra pagina sull'analisi delle immagini mediche.
- Agricoltura: Le Bounding Box sono utilizzate nell'agricoltura di precisione per compiti quali l'identificazione dei frutti da raccogliere, il monitoraggio dello stato di salute delle colture o il rilevamento dei parassiti, come illustrato nel nostro blog sulla computer vision in agricoltura.