Anchor-Based Detectors
Esplora come i rilevatori basati su anchor usano bounding box predefiniti per il rilevamento di oggetti. Impara i loro meccanismi principali, i casi d'uso reali e come si confrontano con il moderno e più veloce Ultralytics YOLO26.
I rilevatori basati su anchor sono una classe fondamentale di modelli di object detection nella computer vision che utilizzano un set di bounding box predefiniti per localizzare e classificare gli oggetti. Invece di cercare di prevedere le coordinate di un oggetto partendo da zero, questi sistemi iniziano con modelli di riferimento fissi noti come anchor boxes. La rete neurale viene quindi addestrata per determinare quale di questi modelli corrisponde meglio a un oggetto nell'immagine e per calcolare gli offset specifici — aggiustamenti in posizione e dimensione — necessari per allineare perfettamente l'anchor al target. Questo approccio trasforma il difficile problema della previsione arbitraria delle coordinate in un compito di regressione più stabile, che ha rappresentato una svolta chiave nello sviluppo delle prime architetture di deep learning (DL) come Faster R-CNN e SSD.
Link to this sectionCome funzionano i meccanismi basati su anchor#
L'operazione principale di un rilevatore basato su anchor ruota attorno alla suddivisione dell'immagine di input in una griglia densa. In ogni cella di questa griglia, il modello genera molteplici anchor box con scale e aspect ratios variabili per tenere conto delle diverse forme degli oggetti, come pedoni alti o veicoli larghi. Mentre i dati dell'immagine passano attraverso il backbone del modello, la rete estrae caratteristiche ricche per eseguire due compiti simultanei:
-
Classificazione: Il modello assegna un punteggio di probabilità a ogni anchor, prevedendo se contiene una classe specifica di oggetto (ad esempio, "auto", "cane") o se è semplicemente rumore di fondo.
-
Regressione del box: Per le anchor identificate come contenenti un oggetto, la rete prevede fattori di correzione per affinare le coordinate
x, ycentrali, la larghezza e l'altezza dell'anchor, risultando in un bounding box preciso.
Durante il model training, questi rilevatori utilizzano una metrica chiamata Intersection over Union (IoU) per abbinare le anchor predefinite con le etichette di ground truth fornite nel dataset. Le anchor con un'elevata sovrapposizione vengono trattate come campioni positivi. Poiché questo processo genera migliaia di potenziali rilevamenti, un algoritmo di filtraggio noto come Non-Maximum Suppression (NMS) viene applicato durante l'inferenza per eliminare i box ridondanti e conservare solo la previsione più accurata per ogni oggetto.
Link to this sectionConfronto con i rilevatori anchor-free#
Sebbene i metodi basati su anchor abbiano stabilito lo standard per anni, il settore si è evoluto verso i anchor-free detectors. Comprendere la distinzione è vitale per i professionisti moderni.
- Basato su anchor: Modelli come YOLOv5 e l'originale RetinaNet si affidano alla configurazione manuale o ad algoritmi di clustering come il k-means clustering per determinare le migliori dimensioni delle anchor per un dataset. Questo offre stabilità ma può risultare rigido se gli oggetti variano drasticamente in termini di forma.
- Anchor-free: Le architetture moderne, inclusa YOLO26, spesso rimuovono completamente la fase delle anchor. Prevedono i centri e le dimensioni degli oggetti direttamente dai pixel della feature map, riducendo l'overhead computazionale e semplificando la ricerca degli iperparametri. Questo approccio "end-to-end" è generalmente più veloce e più facile da addestrare su dati eterogenei.
Link to this sectionApplicazioni nel mondo reale#
La logica basata su anchor rimane rilevante in molti sistemi di produzione legacy e specializzati in cui le forme degli oggetti sono prevedibili e coerenti.
- Monitoraggio del traffico: Nei sistemi di trasporto intelligenti, le telecamere rilevano i veicoli per gestire il flusso o identificare le infrazioni. Poiché auto e camion hanno dimensioni standardizzate, i modelli basati su anchor possono essere ottimizzati con prior specifici per massimizzare precision and recall.
- Automazione retail: I sistemi di checkout automatizzati utilizzano la computer vision per identificare i prodotti. Poiché i beni confezionati, come le scatole di cereali, mantengono un aspect ratio fisso, le anchor forniscono un forte prior per la rete, aiutandola a distinguere tra articoli dall'aspetto simile in una scena disordinata.
Link to this sectionEsempio di Implementazione#
Sebbene i più recenti modelli YOLO26 utilizzino head anchor-free per prestazioni superiori, l'interfaccia per eseguire la detection rimane coerente. La Ultralytics Platform e la Python API astraono la complessità relativa all'utilizzo o meno di anchor o punti centrali da parte di un modello, consentendoti di concentrarti sui risultati.
Ecco come caricare un modello ed eseguire l'inferenza per rilevare oggetti, un flusso di lavoro che si applica indipendentemente dall'architettura anchor sottostante:
from ultralytics import YOLO
# Load the YOLO26 model (optimized for speed and accuracy)
model = YOLO("yolo26n.pt")
# Run inference on an image source
# The model handles internal logic (anchor-based or anchor-free) automatically
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the first result with bounding boxes
results[0].show()Link to this sectionUlteriori letture#
Per approfondire la tua comprensione dei meccanismi di rilevamento, esplora la ricerca fondamentale su Faster R-CNN che ha introdotto la Region Proposal Network (RPN), oppure leggi del Single Shot MultiBox Detector (SSD), che ha ottimizzato il rilevamento basato su anchor per la velocità. Per una visione più ampia del campo, il COCO dataset funge da benchmark standard per valutare sia i modelli basati su anchor che quelli anchor-free. Inoltre, corsi avanzati su Coursera coprono spesso i dettagli matematici della regressione dei box e dell'abbinamento delle anchor.






