Two-Stage Object Detectors
Esplora le meccaniche dei rilevatori di oggetti a due stadi, concentrandoti sulle proposte di regione e sulla classificazione. Scopri perché modelli moderni come Ultralytics YOLO26 sono ora leader.
I rilevatori di oggetti a due stadi sono una classe sofisticata di architetture di deep learning (DL) utilizzate nella computer vision per identificare e localizzare elementi all'interno di un'immagine. A differenza delle loro controparti a uno stadio, che eseguono il rilevamento in un unico passaggio, questi modelli dividono il compito in due fasi distinte: proposta delle regioni e classificazione degli oggetti. Questo approccio biforcato è stato introdotto per dare priorità all'elevata accuratezza di localizzazione, rendendo questi rilevatori storicamente significativi nell'evoluzione dell'intelligenza artificiale (AI). Separando il "dove" dal "cosa", i rilevatori a due stadi ottengono spesso una precisione superiore, in particolare su oggetti piccoli o occlusi, sebbene ciò comporti solitamente il costo di maggiori risorse computazionali e una latenza di inferenza più elevata.
Link to this sectionIl processo a due stadi#
L'architettura di un rilevatore a due stadi si basa su un flusso di lavoro sequenziale che imita il modo in cui un essere umano potrebbe esaminare attentamente una scena.
-
Proposta delle regioni: Nel primo stadio, il modello scansiona l'immagine di input per identificare potenziali aree in cui potrebbero esistere oggetti. Un componente noto come Region Proposal Network (RPN) genera un insieme sparso di riquadri candidati, spesso definiti come Region of Interest (RoI). Questo stadio filtra la maggior parte dello sfondo, consentendo alla rete di concentrare la potenza di elaborazione sulle aree rilevanti.
-
Classificazione e raffinamento: Nel secondo stadio, il modello estrae caratteristiche da queste regioni candidate utilizzando Convolutional Neural Networks (CNNs). Successivamente, assegna una specifica etichetta di classe (ad esempio, "persona", "veicolo") a ciascuna regione e raffina le coordinate del bounding box per racchiudere strettamente l'oggetto.
Esempi notevoli di questa architettura includono la famiglia R-CNN, nello specifico Faster R-CNN e Mask R-CNN, che hanno stabilito lo standard per i benchmark accademici per diversi anni.
Link to this sectionConfronto con i rilevatori a uno stadio#
È utile distinguere i modelli a due stadi dai rilevatori di oggetti a uno stadio come il Single Shot MultiBox Detector (SSD) e la serie Ultralytics YOLO. Mentre i modelli a due stadi danno priorità all'accuratezza elaborando le regioni separatamente, i modelli a uno stadio inquadrano il rilevamento come un singolo problema di regressione, mappando i pixel dell'immagine direttamente alle coordinate del bounding box e alle probabilità di classe.
Storicamente, questo creava un compromesso: i modelli a due stadi erano più accurati ma più lenti, mentre i modelli a uno stadio erano più veloci ma meno precisi. Tuttavia, i progressi moderni hanno sfumato questa linea. Modelli all'avanguardia come YOLO26 utilizzano ora architetture end-to-end che rivaleggiano con l'accuratezza dei rilevatori a due stadi, pur mantenendo la velocità necessaria per l'inferenza in tempo reale.
Link to this sectionApplicazioni nel mondo reale#
Grazie alla loro enfasi sulla precisione e sul richiamo, i rilevatori a due stadi sono spesso preferiti in scenari in cui la sicurezza e i dettagli sono più critici della velocità di elaborazione pura.
- Imaging diagnostico medico: Nel campo dell'AI nella sanità, mancare una diagnosi può essere critico. Le architetture a due stadi sono frequentemente utilizzate nell'analisi delle immagini mediche per rilevare anomalie come tumori in raggi X o scansioni MRI. Il processo a più fasi aiuta a garantire che le piccole lesioni non vengano trascurate su sfondi tissutali complessi, fornendo ai radiologi un'assistenza automatizzata ad alta affidabilità.
- Ispezione industriale ad alta precisione: Nella produzione intelligente, i sistemi di ispezione visiva automatizzati utilizzano questi modelli per identificare difetti microscopici sulle linee di assemblaggio. Ad esempio, rilevare una microfrattura in una pala di turbina richiede l'elevata accuratezza dell'Intersection over Union (IoU) fornita dai rilevatori a due stadi, assicurando che solo i componenti privi di difetti procedano alla fase successiva di produzione.
Link to this sectionImplementare il rilevamento moderno#
Mentre i rilevatori a due stadi hanno gettato le basi per la visione ad alta accuratezza, gli sviluppatori moderni utilizzano spesso modelli a uno stadio avanzati che offrono prestazioni paragonabili con flussi di lavoro di distribuzione significativamente più semplici. La Ultralytics Platform semplifica l'addestramento e la distribuzione di questi modelli, gestendo dataset e risorse di calcolo in modo efficiente.
Il seguente esempio Python dimostra come caricare ed eseguire l'inferenza utilizzando un moderno flusso di lavoro di rilevamento oggetti con ultralytics, ottenendo risultati ad alta precisione simili ai tradizionali approcci a due stadi ma con maggiore efficienza:
from ultralytics import YOLO
# Load the YOLO26 model, a modern high-accuracy detector
model = YOLO("yolo26n.pt")
# Run inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Process results (bounding boxes, classes, and confidence scores)
for result in results:
result.show() # Display the detection outcomes
print(result.boxes.conf) # Print confidence scores





