I vantaggi di Ultralytics YOLO11 come rilevatore anchor-free

5 dicembre 2024
Comprendi come Ultralytics YOLO11 supporta il rilevamento di oggetti anchor-free e i vantaggi che questa architettura di modello offre a varie applicazioni.
%2525202.webp)
5 dicembre 2024
Comprendi come Ultralytics YOLO11 supporta il rilevamento di oggetti anchor-free e i vantaggi che questa architettura di modello offre a varie applicazioni.
Se diamo uno sguardo alla storia dei modelli di Vision AI, il concetto di object detection - un'attività fondamentale della computer vision che prevede l'identificazione e la localizzazione di oggetti all'interno di un'immagine o di un video - esiste fin dagli anni '60. Tuttavia, la ragione principale della sua importanza nelle innovazioni all'avanguardia di oggi è che le tecniche di object detection e le architetture dei modelli sono avanzate e migliorate rapidamente da allora.
In un articolo precedente, abbiamo discusso dell'evoluzione del rilevamento oggetti e del percorso che ha portato ai modelli YOLO di Ultralytics. Oggi ci concentreremo sull'esplorazione di una pietra miliare più specifica in questo percorso: il passaggio dai detector basati su anchor a quelli anchor-free.
I rivelatori basati su ancore si affidano a riquadri predefiniti, chiamati "ancore", per prevedere dove si trovano gli oggetti in un'immagine. Al contrario, i rivelatori anchor-free saltano questi riquadri predefiniti e prevedono invece direttamente le posizioni degli oggetti.
Sebbene questo cambiamento possa sembrare una semplice modifica logica, ha in realtà portato a importanti miglioramenti nell'accuratezza e nell'efficienza del rilevamento degli oggetti. In questo articolo, capiremo come i rilevatori anchor-free hanno rimodellato la computer vision attraverso progressi come Ultralytics YOLO11.
I rilevatori basati su anchor utilizzano box predefiniti, noti come anchor, per aiutare a localizzare gli oggetti in un'immagine. Si pensi a questi anchor come a una griglia di box di diverse dimensioni e forme posizionata sull'immagine. Il modello regola quindi questi box per adattarli agli oggetti che rileva. Ad esempio, se il modello identifica un'auto, modificherà l'anchor box per adattarlo alla posizione e alle dimensioni dell'auto in modo più accurato.
Ogni ancora è associata a un possibile oggetto nell'immagine e, durante l'addestramento, il modello impara come modificare le anchor box per farle corrispondere meglio alla posizione, alle dimensioni e alle proporzioni dell'oggetto. Ciò consente al modello di rilevare oggetti a diverse scale e orientamenti. Tuttavia, selezionare il giusto set di anchor box può richiedere molto tempo e il processo di ottimizzazione può essere soggetto a errori.
Sebbene i detector basati su anchor, come YOLOv4, abbiano funzionato bene in molte applicazioni, presentano alcuni svantaggi. Ad esempio, le anchor box non si allineano sempre bene con oggetti di forme o dimensioni diverse, rendendo più difficile per il modello rilevare oggetti piccoli o di forma irregolare. Il processo di selezione e messa a punto delle dimensioni delle anchor box può anche richiedere molto tempo e richiede molto impegno manuale. A parte questo, i modelli basati su anchor spesso hanno difficoltà a rilevare oggetti occlusi o sovrapposti, poiché le box predefinite potrebbero non adattarsi bene a questi scenari più complessi.
I rivelatori anchor-free hanno iniziato a guadagnare attenzione nel 2018 con modelli come CornerNet e CenterNet, che hanno adottato un nuovo approccio al rilevamento di oggetti eliminando la necessità di riquadri di ancoraggio predefiniti. A differenza dei modelli tradizionali che si affidano a riquadri di ancoraggio di diverse dimensioni e forme per prevedere dove si trovano gli oggetti, i modelli anchor-free prevedono direttamente le posizioni degli oggetti. Si concentrano sui punti chiave o sulle caratteristiche dell'oggetto, come il centro, il che semplifica il processo di rilevamento e lo rende più veloce e preciso.
Ecco come funzionano generalmente i modelli anchor-free:
Poiché i modelli anchor-free non si basano su anchor box, hanno un design più semplice. Ciò significa che sono più efficienti dal punto di vista computazionale. Non dovendo elaborare più anchor box, possono rilevare gli oggetti più rapidamente: un vantaggio importante nelle applicazioni in tempo reale come la guida autonoma e la videosorveglianza.
I modelli anchor-free sono anche molto più bravi a gestire oggetti piccoli, irregolari o occlusi. Poiché si concentrano sul rilevamento dei punti chiave piuttosto che cercare di adattare i riquadri di ancoraggio, sono molto più flessibili. Ciò consente loro di rilevare gli oggetti accuratamente in ambienti complessi o disordinati in cui i modelli basati su ancore potrebbero fallire.
Originariamente progettati per velocità ed efficienza, i modelli YOLO sono gradualmente passati dai metodi basati su anchor al rilevamento anchor-free, rendendo modelli come YOLO11 più veloci, flessibili e adatti a una vasta gamma di applicazioni in tempo reale.
Ecco una rapida panoramica di come il design anchor-free si è evoluto nelle diverse versioni di YOLO:
Un ottimo esempio dei vantaggi del rilevamento senza ancore (anchor-free detection) utilizzando YOLO11 è nei veicoli autonomi. Nelle auto a guida autonoma, rilevare pedoni, altri veicoli e ostacoli in modo rapido e preciso è fondamentale per la sicurezza. L'approccio senza ancore di YOLO11 semplifica il processo di rilevamento prevedendo direttamente i punti chiave degli oggetti, come il centro di un pedone o i confini di un altro veicolo, piuttosto che affidarsi a caselle di ancoraggio predefinite.
YOLO11 non ha bisogno di adattare o adattare una griglia di ancore a ciascun oggetto, il che può essere computazionalmente costoso e lento. Invece, si concentra sulle caratteristiche chiave, rendendolo più veloce ed efficiente. Ad esempio, quando un pedone entra nel percorso del veicolo, YOLO11 può identificare rapidamente la sua posizione individuando i punti chiave, anche se la persona è parzialmente nascosta o in movimento. La capacità di adattarsi a forme e dimensioni variabili senza anchor box consente a YOLO11 di rilevare gli oggetti in modo più affidabile e a velocità più elevate, il che è fondamentale per il processo decisionale in tempo reale nei sistemi di guida autonoma.
Altre applicazioni in cui le capacità anchor-free di YOLO11 risaltano davvero includono:
Sebbene i modelli anchor-free come YOLO11 offrano molti vantaggi, presentano alcune limitazioni. Una delle principali considerazioni pratiche da fare è che anche i modelli anchor-free possono avere difficoltà con le occlusioni o gli oggetti altamente sovrapposti. La logica alla base di questo è che la computer vision mira a replicare la visione umana e, proprio come a volte fatichiamo a identificare gli oggetti occlusi, i modelli di IA possono affrontare sfide simili.
Un altro fattore interessante è legato all'elaborazione delle previsioni del modello. Sebbene l'architettura dei modelli anchor-free sia più semplice di quella dei modelli anchor-based, in alcuni casi è necessario un ulteriore perfezionamento. Ad esempio, tecniche di post-elaborazione come la soppressione non massima (NMS) possono essere necessarie per ripulire le previsioni sovrapposte o migliorare la precisione in scene affollate.
Il passaggio dal rilevamento basato su anchor a quello anchor-free è stato un progresso significativo nel rilevamento degli oggetti. Con i modelli anchor-free come YOLO11, il processo è semplificato, portando a miglioramenti sia in termini di accuratezza che di velocità.
Attraverso YOLO11, abbiamo visto come il rilevamento di oggetti senza anchor eccelle in applicazioni in tempo reale come auto a guida autonoma, videosorveglianza e imaging medicale, dove il rilevamento rapido e preciso è fondamentale. Questo approccio consente a YOLO11 di adattarsi più facilmente alle diverse dimensioni degli oggetti e alle scene complesse, fornendo prestazioni migliori in diversi ambienti.
Con la continua evoluzione della computer vision, il rilevamento di oggetti diventerà solo più veloce, più flessibile e più efficiente.
Esplora il nostro repository GitHub e unisciti alla nostra coinvolgente community per rimanere aggiornato su tutto ciò che riguarda l'AI. Scopri come la Vision AI sta avendo un impatto su settori come il manufacturing e l'agricoltura.