Sintonizzati su YOLO Vision 2025!
25 settembre 2025
10:00 — 18:00 BST
Evento ibrido
Yolo Vision 2024
Glossario

Rilevatori di oggetti One-Stage

Scopri la velocità e l'efficienza dei rilevatori di oggetti one-stage come YOLO, ideali per applicazioni in tempo reale come la robotica e la sorveglianza.

I rilevatori di oggetti one-stage sono una classe di modelli di deep learning progettati per la velocità e l'efficienza nella computer vision. Eseguono la localizzazione e la classificazione degli oggetti in un unico passaggio unificato della rete neurale. Questo contrasta con le loro controparti più complesse, i rilevatori di oggetti two-stage, che suddividono il task in due fasi distinte. Trattando il rilevamento di oggetti come un semplice problema di regressione, i modelli one-stage prevedono i bounding box e le probabilità di classe direttamente dalle caratteristiche dell'immagine, rendendoli eccezionalmente veloci e adatti per applicazioni che richiedono inferenza in tempo reale.

Come funzionano i detector a singola fase

Un rilevatore a singolo stadio elabora un'intera immagine contemporaneamente attraverso una singola rete neurale convoluzionale (CNN). L'architettura della rete è progettata per eseguire diverse attività contemporaneamente. Innanzitutto, il backbone della rete esegue l'estrazione delle caratteristiche, creando ricche rappresentazioni dell'immagine di input a varie scale. Queste caratteristiche vengono quindi inserite in un detection head specializzato.

Questo head è responsabile della previsione di un insieme di bounding box, un punteggio di confidenza per ogni box che indica la presenza di un oggetto e la probabilità che ogni oggetto appartenga a una classe specifica. L'intero processo avviene in un singolo passaggio in avanti, che è la chiave della loro elevata velocità. Tecniche come la soppressione non massima (NMS) vengono quindi utilizzate per filtrare i rilevamenti ridondanti e sovrapposti per produrre l'output finale. I modelli vengono addestrati utilizzando una funzione di perdita specializzata che combina la perdita di localizzazione (quanto è accurato il bounding box) e la perdita di classificazione (quanto è accurata la previsione della classe).

Confronto con rilevatori di oggetti a due stadi

La distinzione principale risiede nella metodologia. I rilevatori a singolo stadio sono costruiti per la velocità e la semplicità, mentre i rilevatori a due stadi danno la priorità all'accuratezza, anche se questa distinzione sta diventando meno pronunciata con i modelli più recenti.

  • Rilevatori a singola fase: Questi modelli, come la famiglia YOLO (You Only Look Once), eseguono il rilevamento in un unico passaggio. Sono generalmente più veloci e hanno un'architettura più semplice, il che li rende ideali per dispositivi edge e applicazioni in tempo reale. Lo sviluppo di rilevatori senza ancoraggio ha ulteriormente migliorato le loro prestazioni e semplicità.
  • Rilevatori di oggetti a due stadi: Modelli come la serie R-CNN e le sue varianti più veloci generano innanzitutto un insieme sparso di proposte di regione in cui potrebbero trovarsi degli oggetti. Nella seconda fase, una rete separata classifica queste proposte e perfeziona le coordinate del riquadro di delimitazione. Questo processo in due fasi in genere produce una maggiore accuratezza, soprattutto per gli oggetti piccoli, ma a costo di una velocità di inferenza significativamente più lenta. Mask R-CNN è un esempio ben noto che estende questo approccio alla segmentazione di istanza.

Architetture e modelli chiave

Sono state sviluppate diverse architetture one-stage influenti, ognuna con contributi unici:

  • YOLO (You Only Look Once): Introdotto in un articolo rivoluzionario del 2015, YOLO ha inquadrato il rilevamento di oggetti come un singolo problema di regressione. Le versioni successive, tra cui YOLOv8 e l'innovativo Ultralytics YOLO11, hanno continuamente migliorato l'equilibrio tra velocità e precisione.
  • Single Shot MultiBox Detector (SSD): L'architettura SSD è stata un altro modello one-stage pionieristico che utilizza mappe di feature multi-scala per rilevare oggetti di varie dimensioni, migliorando l'accuratezza rispetto allo YOLO originale.
  • RetinaNet: Questo modello ha introdotto la Focal Loss, una nuova funzione di loss progettata per affrontare l'estremo squilibrio di classe riscontrato durante il training di dense detector, consentendogli di superare l'accuratezza di molti detector a due stadi dell'epoca.
  • EfficientDet: Una famiglia di modelli sviluppata da Google Research che si concentra su scalabilità ed efficienza utilizzando un metodo di ridimensionamento composto e una nuova rete di feature BiFPN. Puoi vedere come si confronta con altri modelli come YOLO11 vs. EfficientDet.

Applicazioni nel mondo reale

La velocità e l'efficienza dei detector a singolo stadio li hanno resi indispensabili in numerose applicazioni basate sull'intelligenza artificiale:

  1. Veicoli autonomi: Nell'AI per le auto a guida autonoma, i rilevatori one-stage sono fondamentali per percepire l'ambiente in tempo reale. Possono identificare e tracciare istantaneamente pedoni, ciclisti, altri veicoli e segnali stradali, consentendo al sistema di navigazione del veicolo di prendere decisioni critiche in frazioni di secondo. Aziende come Tesla utilizzano principi simili per i loro sistemi Autopilot.
  2. Sicurezza e sorveglianza intelligenti: I modelli a singolo stadio alimentano i moderni sistemi di sicurezza analizzando i flussi video per rilevare minacce come l'ingresso non autorizzato o attività sospette. Ad esempio, un sistema può essere addestrato per contare le persone in una coda per la gestione delle code o identificare i bagagli abbandonati in un aeroporto, tutto in tempo reale.

Vantaggi e limitazioni

Il vantaggio principale dei rilevatori a singolo stadio è la loro incredibile velocità, che consente il rilevamento di oggetti in tempo reale su una varietà di hardware, inclusi dispositivi edge AI a bassa potenza come NVIDIA Jetson o Raspberry Pi. La loro architettura end-to-end più semplice li rende anche più facili da addestrare e distribuire utilizzando framework come PyTorch o TensorFlow.

Storicamente, la limitazione principale è stata una minore accuratezza rispetto ai rilevatori a due stadi, in particolare quando si ha a che fare con oggetti molto piccoli o fortemente occlusi. Tuttavia, i recenti progressi nell'architettura dei modelli e nelle tecniche di addestramento, come si è visto in modelli come YOLO11, hanno significativamente colmato questo divario di prestazioni, offrendo una potente combinazione di velocità e alta accuratezza per una vasta gamma di attività di computer vision. Piattaforme come Ultralytics HUB semplificano ulteriormente il processo di addestramento di modelli personalizzati per esigenze specifiche.

Unisciti alla community di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora
Link copiato negli appunti