Scopri come i rilevatori basati sulle ancore rivoluzionano il rilevamento degli oggetti grazie alla localizzazione precisa, all'adattabilità alla scala e alle applicazioni reali.
I rilevatori basati su ancore rappresentano un approccio significativo e fondamentale nell'ambito della computer vision (CV) per affrontare il compito di rilevare gli oggetti. Questi modelli funzionano utilizzando un insieme predefinito di caselle di riferimento, comunemente chiamate "ancore" o "priori", che hanno dimensioni e rapporti di aspetto specifici. Le ancore sono distribuite nell'immagine e agiscono come ipotesi iniziali o modelli, consentendo al modello di prevedere in modo più efficace la posizione e la classe degli oggetti, soprattutto quando si tratta di oggetti di dimensioni e forme diverse. Molti dei primi modelli influenti di rilevamento degli oggetti, come alcune versioni di Ultralytics YOLO utilizzavano questa tecnica.
Il concetto fondamentale dei rilevatori basati sulle ancore consiste nel sovrapporre una fitta griglia di queste caselle di ancoraggio predefinite sull'immagine di input in diverse posizioni e scale. Ogni casella di ancoraggio corrisponde a un potenziale oggetto con dimensioni e forme specifiche. Durante il processo di addestramento del modello, il rilevatore impara due cose principali per ogni ancoraggio: in primo luogo, classifica se il riquadro di ancoraggio contiene un oggetto rilevante o uno sfondo; in secondo luogo, perfeziona la posizione e le dimensioni dell'ancoraggio (un processo chiamato regressione) in modo che corrisponda esattamente al riquadro di delimitazione dell'oggetto reale.
Consideriamo il rilevamento di vari veicoli in un'immagine di una strada trafficata. Invece di analizzare ogni gruppo di pixel, un modello basato sulle ancore utilizza modelli predefiniti di box: più piccoli per i pedoni, quadrati medi per le auto e rettangoli più grandi per gli autobus. Questi modelli (ancore) vengono posizionati in tutta l'immagine. Se un'ancora si sovrappone in modo significativo a un'auto, il modello impara a classificarla come "auto" e regola le coordinate e le dimensioni dell'ancora per adattarla perfettamente all'auto. Le ancore che coprono solo la strada o gli edifici vengono classificate come "sfondo". Questo approccio sistematico, guidato da forme predefinite, aiuta a gestire la complessità del rilevamento degli oggetti. Le prestazioni vengono tipicamente valutate utilizzando metriche come Intersection over Union (IoU) e mean Average Precision (mAP).
I rilevatori basati su ancore, che spesso sfruttano potenti reti neurali convoluzionali (CNN) come spina dorsale, offrono vantaggi distinti:
I rilevatori basati su ancore sono stati impiegati con successo in numerosi scenari reali:
Negli ultimi anni, i rilevatori senza ancore sono emersi come un'alternativa popolare. A differenza dei modelli basati sulle ancore (ad es, Ultralytics YOLOv5), gli approcci privi di ancore predicono le posizioni e le dimensioni degli oggetti direttamente, spesso identificando punti chiave (come i centri o gli angoli dell'oggetto) o prevedendo le distanze da un punto ai confini dell'oggetto, eliminando la necessità di forme di ancoraggio predefinite.
Le differenze principali includono:
Mentre i rilevatori basati su ancore come YOLOv4 hanno avuto un grande successo, molte architetture moderne, come ad esempio Ultralytics YOLO11hanno adottato design privi di ancore per sfruttarne i vantaggi in termini di semplicità ed efficienza. Puoi esplorare i vantaggi del rilevamento senza ancore in YOLO11 e vedere i confronti tra i diversi modelli YOLO .
Lo sviluppo e l'implementazione di modelli di rilevamento degli oggetti, sia basati su ancore che privi di ancore, comporta l'utilizzo di framework come PyTorch o TensorFlow e librerie come OpenCV. Piattaforme come Ultralytics HUB offrono flussi di lavoro semplificati per l'addestramento di modelli personalizzati, la gestione di set di dati e la distribuzione di soluzioni, supportando diverse architetture di modelli. Per approfondire la conoscenza, risorse come Papers With Code elencano i modelli più avanzati e i corsi di piattaforme come DeepLearning.AI trattano i concetti fondamentali.