I migliori modelli di rilevamento oggetti del 2025
Esplora i migliori modelli di object detection nel 2026, con un'analisi delle architetture più diffuse, dei compromessi in termini di prestazioni e dei fattori pratici di implementazione.

All'inizio di quest'anno, Andrew Ng, un pioniere dell'AI e del machine learning, ha introdotto il concetto di agentic object detection. Questo approccio utilizza un agente di ragionamento per rilevare oggetti basandosi su un prompt testuale, senza richiedere enormi quantità di dati di addestramento.
Essere in grado di identificare oggetti in immagini e video senza aver bisogno di enormi dataset etichettati è un passo avanti verso sistemi di computer vision più intelligenti e flessibili. Tuttavia, l'AI di visione agentica è ancora nelle sue fasi iniziali.
Sebbene sia in grado di gestire compiti generali, come rilevare persone o segnali stradali in un'immagine, le applicazioni di computer vision più precise si basano ancora sui tradizionali modelli di object detection. Questi modelli vengono addestrati su dataset ampi e accuratamente etichettati per imparare esattamente cosa cercare e dove si trovano gli oggetti.

Fig 1. Un esempio di object detection. (Fonte)
La object detection tradizionale è essenziale perché fornisce sia il riconoscimento, identificando cosa sia l'oggetto, sia la localizzazione, determinando esattamente dove si trovi nell'immagine. Questa combinazione consente alle macchine di eseguire compiti complessi nel mondo reale in modo affidabile, dai veicoli autonomi all'automazione industriale e alla diagnostica sanitaria.
Grazie ai progressi tecnologici, i modelli di object detection continuano a migliorare, diventando più veloci, più accurati e più adatti agli ambienti reali. In questo articolo, esamineremo alcuni dei migliori modelli di object detection disponibili oggi. Cominciamo!
Link to this sectionIl bisogno di object detection#
Computer vision tasks come la classificazione delle immagini possono essere utilizzati per determinare se un'immagine contiene un'auto, una persona o un altro oggetto. Tuttavia, non possono determinare dove si trovi l'oggetto all'interno dell'immagine.
È qui che l'object detection può essere utile. I modelli di object detection possono identificare quali oggetti sono presenti e anche individuare le loro posizioni esatte. Questo processo, noto come localizzazione, permette alle macchine di comprendere le scene in modo più accurato e di rispondere in modo appropriato, che si tratti di fermare un'auto a guida autonoma, guidare un braccio robotico o evidenziare un'area nell'imaging medico.
L'ascesa del deep learning ha trasformato l'object detection. Invece di affidarsi a regole codificate manualmente, i modelli moderni imparano i pattern direttamente dalle annotazioni e dai dati visivi. Questi dataset insegnano ai modelli come appaiono gli oggetti, dove appaiono solitamente e come gestire sfide come piccoli oggetti, scene affollate o condizioni di illuminazione variabili.
Infatti, i sistemi di object detection all'avanguardia possono rilevare accuratamente più oggetti contemporaneamente. Questo rende l'object detection una tecnologia critica in applicazioni come la guida autonoma, la robotica, l'assistenza sanitaria e l'automazione industriale.
Link to this sectionCome funzionano i compiti di object detection#
L'input per un modello di object detection è un'immagine, che potrebbe provenire da una fotocamera, un fotogramma video o persino una scansione medica. L'immagine di input viene elaborata attraverso una rete neurale, tipicamente una rete neurale convoluzionale (CNN), addestrata a riconoscere pattern nei dati visivi.
All'interno della rete, l'immagine viene analizzata in fasi. Sulla base delle caratteristiche che rileva, il modello prevede quali oggetti sono presenti e dove appaiono.
Queste previsioni sono rappresentate utilizzando i bounding box, ovvero rettangoli disegnati attorno a ogni oggetto rilevato. Per ogni bounding box, il modello assegna un'etichetta di classe (ad esempio, auto, persona o cane) e un punteggio di confidenza che indica quanto sia certo della previsione (questo può essere pensato anche come una probabilità).

Fig 2. Le previsioni di object detection possono essere visualizzate utilizzando i bounding box.
Il processo complessivo si basa pesantemente sull'estrazione delle feature. Il modello impara a identificare pattern visivi utili, come bordi, forme, texture e altre caratteristiche distintive. Questi pattern sono codificati in feature map, che aiutano la rete a comprendere l'immagine a più livelli di dettaglio.
Link to this sectionRilevare oggetti: Two-stage e single-stage#
A seconda dell'architettura del modello, i rilevatori di oggetti utilizzano strategie diverse per localizzare gli oggetti, bilanciando velocità, accuratezza e complessità.
Molti modelli di object detection, in particolare i rilevatori a due stadi come Faster R-CNN, si concentrano su parti specifiche dell'immagine chiamate regioni di interesse (ROI). Concentrandosi su queste aree, il modello dà la priorità alle regioni con maggiore probabilità di contenere oggetti invece di analizzare ogni pixel allo stesso modo.
D'altra parte, i modelli a stadio singolo come i primi modelli YOLO non selezionano ROI specifiche come fanno i modelli a due stadi. Invece, dividono l'immagine in una griglia e utilizzano riquadri predefiniti, chiamati anchor box, insieme alle feature map per prevedere gli oggetti sull'intera immagine in un unico passaggio.
Al giorno d'oggi, i modelli di object detection all'avanguardia stanno esplorando approcci anchor-free. A differenza dei tradizionali modelli a stadio singolo che si basano su anchor box predefiniti, i modelli anchor-free prevedono le posizioni e le dimensioni degli oggetti direttamente dalle feature map. Ciò può semplificare l'architettura, ridurre il sovraccarico computazionale e migliorare le prestazioni, specialmente per rilevare oggetti di forme e dimensioni variabili.
Link to this sectionUno sguardo ai migliori modelli di object detection#
Oggi esistono molti modelli di object detection, ognuno progettato con obiettivi specifici. Alcuni sono ottimizzati per le prestazioni in tempo reale, mentre altri si concentrano sul raggiungimento della massima accuratezza. Scegliere il modello giusto per una soluzione di computer vision dipende spesso dal tuo caso d'uso particolare e dai requisiti di prestazioni.
Ora, esploriamo alcuni dei migliori modelli di object detection del 2026.
Link to this sectionModelli Ultralytics YOLO#
Una delle famiglie di modelli di object detection più utilizzate oggi è la famiglia di modelli Ultralytics YOLO. YOLO, che sta per You Only Look Once, è popolare in tutti i settori perché offre prestazioni di rilevamento solide pur essendo veloce, affidabile e facile da utilizzare.
La famiglia Ultralytics YOLO include Ultralytics YOLOv5, Ultralytics YOLOv8, Ultralytics YOLO11 e l'imminente Ultralytics YOLO26, offrendo una gamma di opzioni per diverse esigenze di prestazioni e casi d'uso. Grazie al loro design leggero e all'ottimizzazione della velocità, i modelli Ultralytics YOLO sono ideali per il rilevamento in tempo reale e possono essere distribuiti su dispositivi edge con potenza di calcolo e memoria limitate.

Fig 3. Utilizzo di Ultralytics YOLO11 per l'object detection (Fonte)
Oltre alla base dell'object detection, questi modelli sono estremamente versatili. Supportano anche compiti come l'instance segmentation, che delinea gli oggetti a livello di pixel, e la pose estimation, che identifica i punti chiave su persone o oggetti. Questa flessibilità rende i modelli Ultralytics YOLO un'opzione di riferimento per un'ampia gamma di applicazioni, dall'agricoltura e logistica alla vendita al dettaglio e produzione.
Un altro motivo chiave della popolarità dei modelli Ultralytics YOLO è il pacchetto Python Ultralytics, che fornisce un'interfaccia semplice e intuitiva per l'addestramento, il fine-tuning e la distribuzione dei modelli. Gli sviluppatori possono iniziare con pesi pre-addestrati, personalizzare i modelli per i propri dataset e distribuirli con solo poche righe di codice.
Link to this sectionRT-DETR e RT-DETRv2#
RT‑DETR (Real-Time Detection Transformer) e il più recente RT‑DETRv2 sono modelli di object detection creati per l'uso in tempo reale. A differenza di molti modelli tradizionali, possono prendere un'immagine e fornire le rilevazioni finali direttamente senza utilizzare la non-maximum suppression (NMS).
NMS è un passaggio che rimuove i riquadri sovrapposti extra quando un modello prevede lo stesso oggetto più di una volta. Saltare NMS rende il processo di rilevamento più semplice e veloce.
Questi modelli combinano CNN con transformer. La CNN trova dettagli visivi come bordi e forme, mentre il transformer è un tipo di rete neurale in grado di guardare l'intera immagine contemporaneamente e comprendere come diverse parti si relazionano tra loro. Questa comprensione completa consente al modello di rilevare oggetti vicini tra loro o sovrapposti.
RT‑DETRv2 migliora il modello originale con funzionalità come il rilevamento multi-scala, che aiuta a trovare sia oggetti piccoli che grandi, e una migliore gestione di scene complesse. Queste modifiche mantengono il modello veloce migliorando al contempo l'accuratezza.
Link to this sectionRF-DETR#
RF‑DETR è un modello basato su transformer in tempo reale progettato per combinare l'accuratezza delle architetture transformer con la velocità necessaria per le applicazioni del mondo reale. Come RT‑DETR e RT‑DETRv2, utilizza un transformer per analizzare l'intera immagine e una CNN per estrarre feature visive fini come bordi, forme e texture.
Il modello prevede gli oggetti direttamente dall'immagine di input, saltando gli anchor box e la non-maximum suppression, il che semplifica il processo di rilevamento e mantiene l'inferenza veloce. RF‑DETR supporta anche l'instance segmentation, permettendogli di delineare gli oggetti a livello di pixel oltre a prevedere bounding box.
Link to this sectionEfficientDet#
Rilasciato alla fine del 2019, EfficientDet è un modello di object detection progettato per uno scaling efficiente e prestazioni elevate. Ciò che distingue EfficientDet è lo scaling composto, un metodo che scala la risoluzione di input, la profondità della rete e la larghezza della rete simultaneamente anziché regolare solo un fattore. Questo approccio aiuta il modello a mantenere un'accuratezza stabile, sia che venga scalato per compiti ad alte prestazioni o ridotto per distribuzioni leggere.
Un altro componente chiave di EfficientDet è la sua efficiente feature pyramid network (FPN), che consente al modello di analizzare le immagini a scale multiple. Questa analisi multi-scala è cruciale per rilevare oggetti di dimensioni diverse, consentendo a EfficientDet di identificare in modo affidabile sia oggetti piccoli che grandi all'interno della stessa immagine.
Link to this sectionPP-YOLOE+#
Rilasciato nel 2022, PP-YOLOE+ è un modello di object detection in stile YOLO, il che significa che rileva e classifica gli oggetti in un unico passaggio sull'immagine. Questo approccio lo rende veloce e adatto per applicazioni in tempo reale, mantenendo comunque un'alta accuratezza.
Uno dei miglioramenti chiave in PP-YOLOE+ è il task-aligned learning, che aiuta i punteggi di confidenza del modello a riflettere quanto accuratamente siano localizzati gli oggetti. Questo è particolarmente utile per rilevare oggetti piccoli o sovrapposti.

Fig 4. Rilevamento di oggetti utilizzando PP-YOLOE+ (Fonte)
Il modello utilizza anche un'architettura a head disaccoppiata, che separa i compiti di previsione delle posizioni degli oggetti e delle etichette di classe. Ciò gli consente di disegnare bounding box più precisamente mentre classifica gli oggetti correttamente.
Link to this sectionGroundingDINO#
GroundingDINO è un modello di object detection basato su transformer che combina visione e linguaggio. Invece di fare affidamento su un set fisso di categorie, consente agli utenti di rilevare oggetti utilizzando prompt di testo in linguaggio naturale.
Allineando le feature visive da un'immagine con le descrizioni testuali, il modello può localizzare oggetti anche se quelle specifiche etichette non erano presenti nei suoi dati di addestramento. Ciò significa che puoi fornire al modello prompt con descrizioni come “una persona che indossa un casco” o “un'auto rossa vicino a un edificio”, e genererà bounding box accurati attorno agli oggetti corrispondenti.
Inoltre, supportando il rilevamento zero-shot, GroundingDINO riduce la necessità di riaddestrare o perfezionare il modello per ogni nuovo caso d'uso, rendendolo estremamente flessibile in un'ampia gamma di applicazioni. Questa combinazione di comprensione del linguaggio e riconoscimento visivo apre nuove possibilità per sistemi AI interattivi e adattivi.
Link to this sectionMetriche comuni utilizzate per valutare i rilevatori di oggetti#
Mentre confronti vari modelli di object detection, potresti chiederti come capire quale sia effettivamente quello con le migliori prestazioni. È una buona domanda, perché oltre all'architettura del modello e alla qualità dei tuoi dati, molti fattori possono influenzare le prestazioni.
I ricercatori si affidano spesso a benchmark condivisi e metriche di prestazioni standard per valutare i modelli in modo coerente, confrontare i risultati e comprendere i compromessi tra velocità e accuratezza. I benchmark standard sono particolarmente importanti perché molti modelli di object detection vengono valutati sugli stessi dataset, come il dataset COCO.
Link to this sectionMisurazione dell'accuratezza e della velocità di rilevamento#
Ecco uno sguardo più approfondito ad alcune metriche comuni utilizzate per valutare i modelli di object detection:
- Intersection over union (IoU): Questa metrica misura quanto un bounding box previsto si sovrappone all'oggetto reale in un'immagine. Confronta il riquadro disegnato dal modello con il riquadro ground-truth, che è la posizione dell'oggetto come etichettata nel dataset. L'IoU è calcolato come l'area di sovrapposizione divisa per l'area di unione dei due riquadri. Un IoU più alto indica che il modello sta posizionando il riquadro in modo più accurato, mentre un IoU più basso significa che la previsione è meno precisa. In termini semplici, l'IoU mostra quanto le previsioni del modello corrispondano alle posizioni reali degli oggetti.
- Mean average precision (mAP): È la metrica primaria utilizzata per valutare le prestazioni complessive dell'object detection. Considera sia il numero di oggetti che il modello rileva correttamente sia l'accuratezza di tali rilevazioni attraverso diversi livelli di confidenza e categorie di oggetti.
- Frames per second (FPS) e latenza: L'FPS mostra quante immagini o fotogrammi video un modello può elaborare in un secondo. Ad esempio, un modello che esegue 30 FPS può gestire 30 fotogrammi ogni secondo. Un FPS più alto significa che il sistema può rispondere più velocemente, il che è importante per casi d'uso come video live, monitoraggio del traffico o robotica. La latenza, d'altra parte, misura quanto tempo impiega il modello per elaborare una singola immagine o fotogramma dal momento in cui viene ricevuto al momento in cui il risultato è pronto.
Link to this sectionPro e contro dell'utilizzo di algoritmi di object detection#
Ecco alcuni dei principali vantaggi dell'utilizzo di modelli di object detection nelle applicazioni del mondo reale:
- Scalabile tra i settori: L'object detection può essere applicata a un'ampia gamma di casi d'uso, dal monitoraggio del traffico e analisi della vendita al dettaglio all'assistenza sanitaria, agricoltura e produzione.
- Riduce lo sforzo manuale: Automatizzare le attività di ispezione visiva e monitoraggio riduce la necessità di una costante supervisione umana e aiuta i team a concentrarsi su lavori a maggior valore.
- Beneficia degli ecosistemi open-source: Le comunità open-source attive e le risorse su GitHub rendono più facile accedere a modelli pre-addestrati, sperimentare e personalizzare le soluzioni.
Nonostante questi pro, ci sono limitazioni pratiche che possono influenzare le prestazioni dei modelli di object detection. Ecco alcuni fattori vitali da considerare:
- Requisiti di dati di alta qualità: I modelli di object detection si basano su dataset ampi e ben annotati per l'addestramento. Creare e mantenere questi dati può richiedere molto tempo, essere costoso e difficile da scalare.
- Richieste computazionali: I modelli che offrono una maggiore accuratezza di rilevamento richiedono spesso una notevole potenza di calcolo, sia durante l'addestramento che durante la distribuzione in tempo reale. Questo solitamente significa utilizzare GPU ad alte prestazioni, il che può aumentare i costi dell'infrastruttura.
- Sensibilità alle condizioni del mondo reale: Variazioni di illuminazione, angolazioni della fotocamera, meteo e scene affollate possono influire sulle prestazioni di rilevamento, rendendo necessari test e ottimizzazioni continui.
Link to this sectionPunti chiave#
Il miglior modello di object detection per il tuo progetto di computer vision dipende dal tuo caso d'uso, configurazione dei dati, requisiti di prestazioni e vincoli hardware. Alcuni modelli sono ottimizzati per la velocità, mentre altri si concentrano sull'accuratezza e la maggior parte delle applicazioni del mondo reale necessita di un equilibrio tra entrambe. Grazie ai framework open-source e alle comunità attive su GitHub, questi modelli stanno diventando più facili da valutare, adattare e distribuire per l'uso pratico.
Per saperne di più, esplora il nostro repository GitHub. Unisciti alla nostra comunità e dai un'occhiata alle nostre pagine delle soluzioni per leggere di applicazioni come l'AI nell'assistenza sanitaria e la computer vision nell'automotive. Scopri le nostre opzioni di licenza per iniziare oggi stesso con la vision AI.






