Scoprite come le scatole di ancoraggio consentono il rilevamento di oggetti basati sulle ancore, i priori per la classificazione, la regressione e l'NMS, con applicazioni nella guida autonoma e nella vendita al dettaglio.
I riquadri di ancoraggio sono un componente fondamentale in molti modelli di rilevamento degli oggetti basati sull'ancoraggio e servono come insieme predefinito di riquadri di riferimento con altezze e larghezze specifiche. Queste caselle agiscono come priori, o ipotesi istruite, sulla potenziale posizione e scala degli oggetti in un'immagine. Invece di cercare gli oggetti alla cieca, i modelli utilizzano queste ancore come punti di partenza, prevedendo gli offset per affinare la loro posizione e le loro dimensioni in modo che corrispondano agli oggetti reali. Questo approccio trasforma il complesso compito della localizzazione degli oggetti in un problema di regressione più gestibile, in cui il modello impara a regolare questi modelli piuttosto che generare caselle da zero.
Il meccanismo centrale consiste nel rivestire un'immagine con una fitta griglia di caselle di ancoraggio in varie posizioni. In ogni posizione, vengono utilizzate più ancore con scale e rapporti d'aspetto diversi, per garantire il rilevamento efficace di oggetti di forme e dimensioni diverse. Durante il processo di addestramento del modello, la struttura portante del rilevatore estrae innanzitutto una mappa di caratteristiche dall'immagine di ingresso. La testa di rilevamento utilizza quindi queste caratteristiche per eseguire due compiti per ogni casella di ancoraggio:
Il modello utilizza metriche come Intersection over Union (IoU) per determinare quali caselle di ancoraggio corrispondono meglio agli oggetti della verità a terra durante l'addestramento. Dopo la predizione, viene applicata una fase di post-elaborazione chiamata Non-Maximum Suppression (NMS) per eliminare le caselle ridondanti e sovrapposte per lo stesso oggetto.
È importante distinguere le caselle di ancoraggio dai termini correlati nella computer vision:
L'approccio strutturato delle caselle di ancoraggio le rende efficaci in scenari in cui gli oggetti hanno forme e dimensioni prevedibili.
Questi modelli sono in genere sviluppati utilizzando potenti framework di deep learning come PyTorch e TensorFlow. Per continuare a imparare, piattaforme come DeepLearning.AI offrono corsi completi sui fondamenti della computer vision.