Scopri la velocità e l'efficienza dei rilevatori di oggetti one-stage come YOLO, ideali per applicazioni in tempo reale come la robotica e la sorveglianza.
I rilevatori di oggetti one-stage sono una classe di modelli di deep learning progettati per la velocità e l'efficienza nella computer vision. Eseguono la localizzazione e la classificazione degli oggetti in un unico passaggio unificato della rete neurale. Questo contrasta con le loro controparti più complesse, i rilevatori di oggetti two-stage, che suddividono il task in due fasi distinte. Trattando il rilevamento di oggetti come un semplice problema di regressione, i modelli one-stage prevedono i bounding box e le probabilità di classe direttamente dalle caratteristiche dell'immagine, rendendoli eccezionalmente veloci e adatti per applicazioni che richiedono inferenza in tempo reale.
Un rilevatore a singolo stadio elabora un'intera immagine contemporaneamente attraverso una singola rete neurale convoluzionale (CNN). L'architettura della rete è progettata per eseguire diverse attività contemporaneamente. Innanzitutto, il backbone della rete esegue l'estrazione delle caratteristiche, creando ricche rappresentazioni dell'immagine di input a varie scale. Queste caratteristiche vengono quindi inserite in un detection head specializzato.
Questo head è responsabile della previsione di un insieme di bounding box, un punteggio di confidenza per ogni box che indica la presenza di un oggetto e la probabilità che ogni oggetto appartenga a una classe specifica. L'intero processo avviene in un singolo passaggio in avanti, che è la chiave della loro elevata velocità. Tecniche come la soppressione non massima (NMS) vengono quindi utilizzate per filtrare i rilevamenti ridondanti e sovrapposti per produrre l'output finale. I modelli vengono addestrati utilizzando una funzione di perdita specializzata che combina la perdita di localizzazione (quanto è accurato il bounding box) e la perdita di classificazione (quanto è accurata la previsione della classe).
La distinzione principale risiede nella metodologia. I rilevatori a singolo stadio sono costruiti per la velocità e la semplicità, mentre i rilevatori a due stadi danno la priorità all'accuratezza, anche se questa distinzione sta diventando meno pronunciata con i modelli più recenti.
Sono state sviluppate diverse architetture one-stage influenti, ognuna con contributi unici:
La velocità e l'efficienza dei detector a singolo stadio li hanno resi indispensabili in numerose applicazioni basate sull'intelligenza artificiale:
Il vantaggio principale dei rilevatori a singolo stadio è la loro incredibile velocità, che consente il rilevamento di oggetti in tempo reale su una varietà di hardware, inclusi dispositivi edge AI a bassa potenza come NVIDIA Jetson o Raspberry Pi. La loro architettura end-to-end più semplice li rende anche più facili da addestrare e distribuire utilizzando framework come PyTorch o TensorFlow.
Storicamente, la limitazione principale è stata una minore accuratezza rispetto ai rilevatori a due stadi, in particolare quando si ha a che fare con oggetti molto piccoli o fortemente occlusi. Tuttavia, i recenti progressi nell'architettura dei modelli e nelle tecniche di addestramento, come si è visto in modelli come YOLO11, hanno significativamente colmato questo divario di prestazioni, offrendo una potente combinazione di velocità e alta accuratezza per una vasta gamma di attività di computer vision. Piattaforme come Ultralytics HUB semplificano ulteriormente il processo di addestramento di modelli personalizzati per esigenze specifiche.