Glossario

Rivelatori di oggetti a uno stadio

Scoprite la velocità e l'efficienza dei rilevatori di oggetti a uno stadio come YOLO, ideali per applicazioni in tempo reale come la robotica e la sorveglianza.

I rilevatori di oggetti a uno stadio sono una classe di modelli di apprendimento profondo progettati per la velocità e l'efficienza della visione artificiale. Eseguono la localizzazione e la classificazione degli oggetti in un unico passaggio della rete neurale. Ciò contrasta con le loro controparti più complesse, i rilevatori di oggetti a due stadi, che suddividono il compito in due fasi distinte. Trattando il rilevamento degli oggetti come un semplice problema di regressione, i modelli a uno stadio predicono i riquadri di delimitazione e le probabilità di classe direttamente dalle caratteristiche dell'immagine, rendendoli eccezionalmente veloci e adatti ad applicazioni che richiedono un'inferenza in tempo reale.

Come funzionano i rivelatori a uno stadio

Un rilevatore a uno stadio elabora un'intera immagine in una sola volta attraverso una singola rete neurale convoluzionale (CNN). L'architettura della rete è progettata per svolgere diversi compiti contemporaneamente. In primo luogo, la spina dorsale della rete esegue l'estrazione delle caratteristiche, creando ricche rappresentazioni dell'immagine di ingresso a varie scale. Queste caratteristiche vengono poi inserite in una testa di rilevamento specializzata.

Questa testa è responsabile della previsione di una serie di caselle di delimitazione, di un punteggio di confidenza per ogni casella che indica la presenza di un oggetto e della probabilità che ogni oggetto appartenga a una classe specifica. L'intero processo avviene in un unico passaggio in avanti, il che è la chiave della loro elevata velocità. Tecniche come la soppressione non massimale (NMS) vengono poi utilizzate per filtrare i rilevamenti ridondanti e sovrapposti per produrre l'output finale. I modelli vengono addestrati utilizzando una funzione di perdita specializzata che combina la perdita di localizzazione (l'accuratezza del riquadro di delimitazione) e la perdita di classificazione (l'accuratezza della previsione della classe).

Confronto con i rivelatori di oggetti a due stadi

La differenza principale sta nella metodologia. I rilevatori a uno stadio sono costruiti per la velocità e la semplicità, mentre i rilevatori a due stadi danno la priorità all'accuratezza, anche se questa distinzione sta diventando meno pronunciata con i modelli più recenti.

  • Rivelatori a una fase: Questi modelli, come la famiglia YOLO (You Only Look Once), eseguono il rilevamento in un unico passaggio. Sono generalmente più veloci e hanno un'architettura più semplice, che li rende ideali per i dispositivi edge e le applicazioni in tempo reale. Lo sviluppo di rivelatori privi di ancoraggio ha ulteriormente migliorato le loro prestazioni e la loro semplicità.
  • Rivelatori di oggetti a due stadi: Modelli come la serie R-CNN e le sue varianti più veloci generano innanzitutto un insieme sparso di proposte di regioni in cui potrebbero trovarsi gli oggetti. Nella seconda fase, una rete separata classifica queste proposte e affina le coordinate del rettangolo di selezione. Questo processo in due fasi produce in genere una maggiore accuratezza, soprattutto per gli oggetti di piccole dimensioni, ma al costo di una velocità di inferenza significativamente inferiore. La Mask R-CNN è un esempio ben noto che estende questo approccio alla segmentazione delle istanze.

Architetture e modelli chiave

Sono state sviluppate diverse influenti architetture a uno stadio, ognuna con contributi unici:

  • YOLO (You Only Look Once): Introdotto in un articolo innovativo del 2015, YOLO ha inquadrato il rilevamento degli oggetti come un singolo problema di regressione. Le versioni successive, tra cui YOLOv8 e lo stato dell'arte Ultralytics YOLO11, hanno costantemente migliorato l'equilibrio tra velocità e precisione.
  • Rivelatore MultiBox a colpo singolo (SSD): L'architettura SSD è un altro modello pionieristico a un solo stadio che utilizza mappe di caratteristiche multiscala per rilevare oggetti di varie dimensioni, migliorando la precisione rispetto allo YOLO originale.
  • RetinaNet: Questo modello ha introdotto la perdita focale, una nuova funzione di perdita progettata per risolvere l'estremo squilibrio tra le classi riscontrato durante l'addestramento dei rilevatori densi, consentendogli di superare l'accuratezza di molti rilevatori a due stadi dell'epoca.
  • EfficientDet: Una famiglia di modelli sviluppati da Google Research che si concentra sulla scalabilità e sull'efficienza utilizzando un metodo di scalatura composto e una nuova rete di caratteristiche BiFPN. È possibile vedere come si confronta con altri modelli come YOLO11 vs. EfficientDet.

Applicazioni del mondo reale

La velocità e l'efficienza dei rilevatori a uno stadio li hanno resi indispensabili in numerose applicazioni basate sull'intelligenza artificiale:

  1. Veicoli autonomi: Nell'intelligenza artificiale delle auto a guida autonoma, i rilevatori a uno stadio sono fondamentali per percepire l'ambiente in tempo reale. Sono in grado di identificare e seguire istantaneamente pedoni, ciclisti, altri veicoli e segnali stradali, consentendo al sistema di navigazione del veicolo di prendere decisioni critiche in una frazione di secondo. Aziende come Tesla utilizzano principi simili per i loro sistemi Autopilot.
  2. Sicurezza e sorveglianza intelligenti: I modelli a uno stadio alimentano i moderni sistemi di sicurezza analizzando i feed video per rilevare minacce come ingressi non autorizzati o attività sospette. Ad esempio, un sistema può essere addestrato a contare le persone in coda per la gestione delle code o a identificare i bagagli abbandonati in un aeroporto, il tutto in tempo reale.

Vantaggi e limiti

Il vantaggio principale dei rilevatori a una fase è la loro incredibile velocità, che consente il rilevamento di oggetti in tempo reale su una varietà di hardware, compresi i dispositivi di intelligenza artificiale a basso consumo come NVIDIA Jetson o Raspberry Pi. La loro architettura più semplice, end-to-end, li rende anche più facili da addestrare e distribuire utilizzando framework come PyTorch o TensorFlow.

Storicamente, il limite principale è stato la minore accuratezza rispetto ai rilevatori a due stadi, in particolare quando si tratta di oggetti molto piccoli o fortemente occlusi. Tuttavia, i recenti progressi nell'architettura dei modelli e nelle tecniche di addestramento, come si è visto in modelli come YOLO11, hanno colmato in modo significativo questo divario di prestazioni, offrendo una potente combinazione di velocità e alta precisione per un'ampia gamma di compiti di computer vision. Piattaforme come Ultralytics HUB semplificano ulteriormente il processo di formazione di modelli personalizzati per esigenze specifiche.

Unitevi alla comunità di Ultralytics

Entrate a far parte del futuro dell'IA. Connettetevi, collaborate e crescete con gli innovatori globali.

Iscriviti ora
Link copiato negli appunti