Scoprite la velocità e l'efficienza dei rilevatori di oggetti a uno stadio come YOLO, ideali per applicazioni in tempo reale come la robotica e la sorveglianza.
I rilevatori di oggetti a uno stadio sono una classe di modelli di apprendimento profondo progettati per la velocità e l'efficienza della visione artificiale. Eseguono la localizzazione e la classificazione degli oggetti in un unico passaggio della rete neurale. Ciò contrasta con le loro controparti più complesse, i rilevatori di oggetti a due stadi, che suddividono il compito in due fasi distinte. Trattando il rilevamento degli oggetti come un semplice problema di regressione, i modelli a uno stadio predicono i riquadri di delimitazione e le probabilità di classe direttamente dalle caratteristiche dell'immagine, rendendoli eccezionalmente veloci e adatti ad applicazioni che richiedono un'inferenza in tempo reale.
Un rilevatore a uno stadio elabora un'intera immagine in una sola volta attraverso una singola rete neurale convoluzionale (CNN). L'architettura della rete è progettata per svolgere diversi compiti contemporaneamente. In primo luogo, la spina dorsale della rete esegue l'estrazione delle caratteristiche, creando ricche rappresentazioni dell'immagine di ingresso a varie scale. Queste caratteristiche vengono poi inserite in una testa di rilevamento specializzata.
Questa testa è responsabile della previsione di una serie di caselle di delimitazione, di un punteggio di confidenza per ogni casella che indica la presenza di un oggetto e della probabilità che ogni oggetto appartenga a una classe specifica. L'intero processo avviene in un unico passaggio in avanti, il che è la chiave della loro elevata velocità. Tecniche come la soppressione non massimale (NMS) vengono poi utilizzate per filtrare i rilevamenti ridondanti e sovrapposti per produrre l'output finale. I modelli vengono addestrati utilizzando una funzione di perdita specializzata che combina la perdita di localizzazione (l'accuratezza del riquadro di delimitazione) e la perdita di classificazione (l'accuratezza della previsione della classe).
La differenza principale sta nella metodologia. I rilevatori a uno stadio sono costruiti per la velocità e la semplicità, mentre i rilevatori a due stadi danno la priorità all'accuratezza, anche se questa distinzione sta diventando meno pronunciata con i modelli più recenti.
Sono state sviluppate diverse influenti architetture a uno stadio, ognuna con contributi unici:
La velocità e l'efficienza dei rilevatori a uno stadio li hanno resi indispensabili in numerose applicazioni basate sull'intelligenza artificiale:
Il vantaggio principale dei rilevatori a una fase è la loro incredibile velocità, che consente il rilevamento di oggetti in tempo reale su una varietà di hardware, compresi i dispositivi di intelligenza artificiale a basso consumo come NVIDIA Jetson o Raspberry Pi. La loro architettura più semplice, end-to-end, li rende anche più facili da addestrare e distribuire utilizzando framework come PyTorch o TensorFlow.
Storicamente, il limite principale è stato la minore accuratezza rispetto ai rilevatori a due stadi, in particolare quando si tratta di oggetti molto piccoli o fortemente occlusi. Tuttavia, i recenti progressi nell'architettura dei modelli e nelle tecniche di addestramento, come si è visto in modelli come YOLO11, hanno colmato in modo significativo questo divario di prestazioni, offrendo una potente combinazione di velocità e alta precisione per un'ampia gamma di compiti di computer vision. Piattaforme come Ultralytics HUB semplificano ulteriormente il processo di formazione di modelli personalizzati per esigenze specifiche.