Esplorare il rilevamento di oggetti piccoli con Ultralytics YOLO11
Scopri come Ultralytics YOLO11 offre un rilevamento di oggetti piccoli veloce e preciso in applicazioni reali come la sorveglianza e la robotica.

I droni dotati di vision AI possono volare a centinaia di metri dal suolo, e ci si aspetta comunque che rilevino una persona che appare solo come pochi pixel nel loro feed video. Di fatto, è una sfida comune in applicazioni come la robotica, la sorveglianza e il telerilevamento, dove i sistemi devono identificare oggetti che sono molto piccoli all'interno di un'immagine.
Ma i modelli tradizionali di object detection possono avere difficoltà a farlo. Gli oggetti piccoli in immagini e video rappresentano informazioni visive molto limitate. In parole povere, quando un modello li osserva, non ci sono molti dettagli da cui imparare o da riconoscere.
Sotto il cofano, questi modelli si basano solitamente su un'architettura basata su reti neurali convoluzionali (CNN). Le immagini vengono elaborate attraverso strati della rete e trasformate in mappe di caratteristiche o rappresentazioni semplificate che evidenziano pattern rilevanti invece dei pixel grezzi.
Man mano che l'immagine avanza nella rete, queste mappe di caratteristiche diventano più piccole. Questo rende il calcolo più veloce, ma significa anche che i dettagli fini possono scomparire.
Per oggetti minuscoli, quei dettagli sono cruciali. Una volta che quei dettagli scompaiono, un modello di computer vision potrebbe avere difficoltà a rilevare l'oggetto, il che può portare a bounding box meno precisi o incoerenti.
I sistemi di computer vision end-to-end in tempo reale rendono tutto ciò ancora più complicato. Immagini ad alta risoluzione aiutano a preservare i dettagli, ma rallentano l'inferenza e richiedono più potenza GPU. Risoluzioni inferiori girano più velocemente, ma gli oggetti piccoli diventano ancora più difficili da rilevare.
Diventa un costante atto di equilibrio tra velocità, precisione e limiti hardware. Grazie ai recenti progressi tecnologici, modelli di computer vision come Ultralytics YOLO11 e il prossimo Ultralytics YOLO26 sono progettati per gestire questo compromesso in modo più efficace.

Fig 1. Utilizzo di YOLO11 per rilevare oggetti piccoli in immagini aeree (Fonte)
In questo articolo, esploreremo perché il rilevamento di oggetti piccoli è difficile e come YOLO11 possa semplificarlo. Cominciamo!
Link to this sectionCos'è il rilevamento di oggetti piccoli e perché è importante?#
Il rilevamento di oggetti piccoli è un compito nella computer vision, un ramo dell'IA, che si concentra sull'identificazione e la localizzazione di oggetti che occupano una porzione molto piccola di un'immagine. Questi oggetti sono spesso rappresentati all'interno dell'immagine da un numero limitato di pixel, che sono le unità più piccole di un'immagine digitale. Questo li rende più difficili da rilevare rispetto a target più grandi e chiari (che spesso contengono più pixel).
Ad esempio, veicoli in immagini aeree, utensili in un'officina o persone riprese da telecamere di sorveglianza grandangolari, possono apparire come piccoli oggetti all'interno dell'immagine. Rilevarli è importante perché spesso contengono informazioni critiche e molte applicazioni del mondo reale, come la sorveglianza, dipendono da questi rilevamenti per funzionare correttamente.
Quando gli oggetti piccoli vengono mancati, le prestazioni del sistema e il processo decisionale possono risentirne. Il monitoraggio tramite velivoli a pilotaggio remoto (UAV) è un buon esempio, dove mancare un piccolo oggetto in movimento a terra può influire sulla navigazione o sulla precisione del tracciamento.
Link to this sectionSfide relative al rilevamento di oggetti piccoli#
I primi sistemi utilizzavano caratteristiche progettate manualmente e metodi di computer vision tradizionali, che avevano difficoltà in scene affollate o variegate. Anche oggi, con modelli di deep learning che funzionano molto meglio, rilevare target piccoli è ancora difficile quando occupano solo una minuscola parte dell'immagine.
Successivamente, esaminiamo alcune delle sfide comuni che appaiono in diversi scenari reali quando si rilevano oggetti piccoli.
Link to this sectionDimensione, pixel e perdita di informazioni#
Gli oggetti piccoli contengono pochissimi pixel, il che limita la quantità di dettagli visivi che un modello può apprendere durante fasi come l'estrazione delle caratteristiche. Di conseguenza, pattern come bordi, forme e texture sono più difficili da rilevare, rendendo gli oggetti piccoli più propensi a confondersi con lo sfondo.
Mentre le immagini si spostano attraverso i convolutional layers di una rete neurale, le informazioni visive nei pixel vengono gradualmente compresse in mappe di caratteristiche. Questo aiuta il modello a rimanere efficiente, ma significa anche che i dettagli fini svaniscono.

Fig 2. Le mappe di caratteristiche rappresentano pattern visivi in un'immagine (Fonte)
Per i target piccoli, segnali importanti possono scomparire prima che la rete di rilevamento abbia la possibilità di agire. Quando ciò accade, la localizzazione diventa meno affidabile e i bounding box possono spostarsi, sovrapporsi o mancare completamente gli oggetti target.
Link to this sectionOcclusione, varianza di scala e contesto#
Le sfide legate alle dimensioni sono spesso causate anche dall'occlusione. L'occlusione si verifica quando gli oggetti, specialmente quelli più piccoli, sono parzialmente nascosti da altri oggetti nella scena.
Questo riduce l'area visibile di un target, il che limita le informazioni disponibili per il rilevatore di oggetti. Anche una piccola occlusione può confondere le reti di rilevamento, specialmente se combinata con input a bassa risoluzione. Un esempio interessante di ciò può essere visto in dataset UAV come VisDrone, dove pedoni, biciclette o veicoli possono essere parzialmente bloccati da edifici, alberi o altri oggetti in movimento.

Fig 3. Un esempio dal dataset VisDrone che mostra oggetti piccoli (Fonte)
Analogamente, la varianza di scala introduce un altro livello di difficoltà quando lo stesso oggetto appare molto piccolo o relativamente grande a seconda della distanza e della posizione della telecamera. Nonostante questi ostacoli, gli algoritmi di rilevamento devono riconoscere questi piccoli oggetti su diverse scale senza perdere precisione.
Anche il contesto gioca un ruolo importante nel rilevamento. Ad esempio, gli oggetti grandi solitamente appaiono con dintorni chiari che forniscono utili indizi visivi. D'altra parte, i piccoli target spesso mancano di queste informazioni contestuali, il che rende il riconoscimento dei pattern più difficile.
Link to this sectionIl problema della metrica nascosta nel rilevamento di oggetti piccoli#
Metriche di valutazione comuni, come Intersection over Union (IoU), misurano quanto bene un bounding box predetto si sovrappone alla box della ground-truth. Sebbene l'IoU funzioni bene per oggetti più grandi, il suo comportamento è molto diverso per quelli piccoli.
Gli oggetti piccoli occupano solo pochi pixel, quindi anche un piccolo spostamento nella box predetta può creare un grande errore proporzionale e abbassare drasticamente il punteggio IoU. Ciò significa che gli oggetti piccoli spesso non riescono a soddisfare la soglia standard di IoU utilizzata per conteggiare una previsione come corretta, anche quando l'oggetto è visibile nell'immagine.
Di conseguenza, gli errori di localizzazione hanno maggiori probabilità di essere classificati come falsi positivi o falsi negativi. Queste limitazioni hanno spinto i ricercatori a ripensare al modo in cui i sistemi di object detection valutano e gestiscono target piccoli e difficili da rilevare.
Link to this sectionCaratteristiche multi-scala: la chiave per il rilevamento di oggetti piccoli in tempo reale#
Mentre i ricercatori lavoravano per migliorare il rilevamento di oggetti piccoli, è diventato chiaro che preservare e rappresentare le informazioni visive attraverso scale multiple è essenziale. Questa intuizione è riecheggiata nella recente ricerca arXiv e in documenti presentati in sedi come le Conferenze Internazionali IEEE e l'European Computer Vision Association (ECCV).
Man mano che le immagini si spostano più in profondità attraverso una rete neurale, gli oggetti piccoli possono perdere dettagli o scomparire del tutto, motivo per cui i moderni modelli di computer vision come YOLO11 pongono una forte attenzione su una migliore estrazione delle caratteristiche. Successivamente, esaminiamo i concetti fondamentali dietro le mappe di caratteristiche e le reti piramidali di caratteristiche per comprenderli meglio.
Link to this sectionMappe di caratteristiche e rappresentazione della scala#
Quando un'immagine di input, come un'immagine di telerilevamento, entra in una rete neurale, viene gradualmente trasformata in mappe di caratteristiche. Queste sono rappresentazioni semplificate dell'immagine che evidenziano pattern visivi come bordi, forme e texture.
Man mano che la rete diventa più profonda, queste mappe di caratteristiche diventano più piccole in termini di dimensioni spaziali. Questa riduzione aiuta il modello a funzionare in modo efficiente e a concentrarsi sulle informazioni di alto livello. Tuttavia, restringere le mappe di caratteristiche profonde riduce anche il dettaglio spaziale.

Fig 4. L'estrazione delle caratteristiche è fondamentale per il rilevamento di oggetti piccoli. (Fonte)
Mentre gli oggetti grandi conservano abbastanza informazioni visive per un rilevamento accurato, i target piccoli possono perdere dettagli critici dopo soli pochi strati della rete. Quando ciò accade, un modello può avere difficoltà a riconoscere persino l'esistenza di un piccolo oggetto. Questo è uno dei motivi principali per cui gli oggetti piccoli vengono mancati nei modelli di object detection profondi.
Link to this sectionReti piramidali di caratteristiche e apprendimento multi-scala#
Feature pyramid networks, spesso chiamate FPN, sono state introdotte per affrontare la perdita di dettaglio spaziale e funzionano come un modulo di supporto che combina informazioni da più strati in modo che i modelli possano rilevare gli oggetti piccoli in modo più efficace. Questo processo è noto anche come aggregazione di caratteristiche e fusione di caratteristiche.
Gli strati superficiali forniscono dettagli spaziali fini, mentre gli strati più profondi aggiungono contesto semantico, consentendo un efficace apprendimento delle caratteristiche multi-scala. A differenza dell'upsampling ingenuo, che ingrandisce semplicemente le mappe di caratteristiche, FPN preserva informazioni significative e migliora il rilevamento di oggetti piccoli.
Gli approcci moderni costruiscono su questa idea utilizzando fusioni di caratteristiche adattive e design consapevoli del contesto per migliorare ulteriormente il rilevamento di piccoli target. In altre parole, FPN aiuta i modelli a vedere sia il quadro generale che i dettagli minuscoli allo stesso tempo. Questa ottimizzazione è essenziale quando gli oggetti sono piccoli.
Link to this sectionCome si sono evoluti i modelli di object detection per gestire gli oggetti piccoli#
Ecco uno sguardo a come i modelli di object detection si sono evoluti e avanzati nel tempo per rilevare meglio oggetti di dimensioni diverse, inclusi quelli molto piccoli:
- Primi metodi di rilevamento: I primi approcci di object detection si basavano su caratteristiche progettate manualmente e algoritmi basati su regole radicati nell'elaborazione classica delle immagini. Poiché queste caratteristiche erano fisse, le prestazioni degradavano con immagini diverse.
- Introduzione del machine learning e del deep learning: L'adozione del machine learning e del deep learning ha segnato un importante cambiamento nella ricerca sull'object detection. Invece di fare affidamento su regole predefinite, le reti neurali hanno appreso le rappresentazioni visive direttamente dai dati di addestramento, migliorando l'adattabilità attraverso varie dimensioni degli oggetti e scene.
- Reti convoluzionali: Queste reti neurali imparano a vedere pattern nelle immagini. Ogni strato coglie dettagli diversi, iniziando con bordi e colori semplici, poi forme e infine oggetti completi, rendendole essenziali per la moderna computer vision.
- Rilevatori di oggetti a due stadi: I rilevatori a due stadi, come Faster R-CNN, introdotti da Girshick e Ren, generavano prima regioni candidate e poi le classificavano. Questo approccio ha migliorato la precisione per gli oggetti piccoli ma ha aumentato il costo computazionale e ridotto le prestazioni in tempo reale.
- Rilevatori di oggetti a uno stadio: I rilevatori a uno stadio, come SSD (Single-Shot Detector) e la famiglia YOLO (You Only Look Once), inclusi YOLOv3, Ultralytics YOLOv5 e il successivo Ultralytics YOLOv8, eseguono il rilevamento in un unico passaggio. Questo design migliora significativamente la velocità di inferenza mantenendo una precisione competitiva.
- Ultimi modelli all'avanguardia: I modelli di object detection più recenti pongono una maggiore enfasi sulle prestazioni in tempo reale e sul deployment edge. I recenti rilasci dei modelli Ultralytics YOLO, come Ultralytics YOLO11 e il prossimo Ultralytics YOLO26, sono progettati per bilanciare alta precisione e inferenza a bassa latenza, rendendoli ben adatti al rilevamento di oggetti di tutte le dimensioni, inclusi piccoli target, su dispositivi con potenza di calcolo limitata.
Link to this sectionUtilizzo di YOLO11 per casi d'uso di rilevamento di oggetti piccoli#
Ora che abbiamo una migliore comprensione di come funziona il rilevamento di oggetti piccoli, diamo un'occhiata a un paio di applicazioni del mondo reale in cui può essere applicato YOLO11.
Link to this sectionUAV e immagini aeree#
Immagina un drone che vola in alto sopra una trafficata strada cittadina. Da quell'altezza, auto, biciclette e persino persone si restringono a pochi pixel su uno schermo.
I moduli UAV e di imaging aereo catturano spesso scene come questa, dove gli oggetti di interesse sono minuscoli e circondati da sfondi ingombri, il che li rende difficili da rilevare per i modelli di computer vision.
In questi tipi di scenari, YOLO11 può essere una scelta di modello ideale. Ad esempio, un drone equipaggiato con un modello come YOLO11 potrebbe monitorare il traffico in tempo reale, rilevando veicoli, ciclisti e pedoni mentre si muovono attraverso la scena, anche quando ogni oggetto occupa solo una piccola porzione dell'immagine. Ciò consente un processo decisionale più rapido e approfondimenti più precisi in applicazioni come la gestione del traffico, la sicurezza pubblica o la pianificazione urbana.
Link to this sectionRobotica e automazione#
I robot vengono spesso utilizzati in ambienti in cui precisione e tempismo sono critici. In contesti come magazzini, fabbriche e aziende agricole, un robot potrebbe dover riconoscere oggetti molto piccoli, come un componente su una linea di assemblaggio, un'etichetta su un pacchetto o un piccolo germoglio di pianta in un campo, e rispondere rapidamente.
Rilevare oggetti di queste dimensioni può essere complicato, specialmente quando appaiono come solo pochi pixel nel feed della telecamera o sono parzialmente occlusi da altri oggetti. Mancare questi piccoli dettagli può rallentare l'automazione o influire sulla capacità del robot di completare un compito.
YOLO11 può fare la differenza in queste situazioni. La sua estrazione delle caratteristiche migliorata e l'inferenza rapida consentono ai robot di rilevare oggetti piccoli in tempo reale e agire immediatamente.
YOLO11 supporta anche la segmentazione delle istanze, che può aiutare i robot a comprendere i confini degli oggetti e i punti di presa in modo più preciso, invece di localizzare solo bounding box generici. Ad esempio, un braccio robotico integrato con YOLO11 potrebbe individuare piccoli componenti su un nastro trasportatore, segmentarne la forma esatta e raccoglierli prima che escano dalla portata, aiutando il sistema a rimanere efficiente e affidabile.
Link to this sectionCosa rende YOLO11 efficace per il rilevamento di oggetti piccoli#
Con così tanti modelli di computer vision disponibili oggi, potresti chiederti cosa faccia risaltare Ultralytics YOLO11.
Ecco alcuni motivi per cui Ultralytics YOLO11 è un'ottima opzione per le applicazioni in cui devono essere rilevati oggetti piccoli:
- Better feature extraction: YOLO11 utilizza un'architettura backbone e neck migliorata per potenziare l'estrazione delle caratteristiche, consentendo un rilevamento degli oggetti più preciso.
- Ecosistema e facilità d'uso: Il Ultralytics Python package è una libreria che fornisce funzioni integrate per caricare, addestrare, validare e distribuire modelli come YOLO11. Dato che questi flussi di lavoro richiedono solo poche righe di codice, i team possono sperimentare rapidamente e affinare i modelli per il rilevamento di oggetti piccoli.
- Ottimizzato per il deployment edge: YOLO11 può funzionare in modo efficiente su dispositivi edge come NVIDIA Jetson, Raspberry Pi e sistemi di telecamere industriali. In parole povere, abilita compiti di vision AI in tempo reale direttamente sul dispositivo.
Link to this sectionStrategie pratiche da utilizzare quando si rilevano oggetti piccoli con YOLO11#
Oltre a utilizzare un modello come YOLO11, il modo in cui prepari le tue annotazioni, il dataset complessivo e la procedura di addestramento del modello possono fare una differenza significativa nelle prestazioni di rilevamento.
Ecco una rapida panoramica su cosa concentrarsi:
- Corretta data augmentation: Una leggera data augmentation, come il ridimensionamento o il ritaglio, può aiutare il modello a generalizzare su nuove immagini. Tuttavia, un'augmentation su larga scala aggressiva può distorcere o rimuovere oggetti piccoli, rendendoli più difficili da imparare per il modello.
- Analisi dei casi di fallimento: Analizzare dove il modello manca o identifica erroneamente gli oggetti aiuta a creare una base di riferimento e a rivelare se i problemi derivano dal dataset, dalla perdita di informazioni durante l'estrazione delle caratteristiche o dalla necessità di regolare le impostazioni di addestramento.
- Composizione del dataset: Il tuo dataset dovrebbe contenere abbastanza esempi di oggetti piccoli in modo che il modello possa imparare pattern significativi, e dovrebbe rimanere bilanciato in modo che gli oggetti più grandi non oscurino quelli più piccoli durante l'addestramento.
Link to this sectionPunti chiave#
Il rilevamento di oggetti piccoli è difficile perché i piccoli target perdono dettagli mentre le immagini si spostano attraverso un modello di computer vision. YOLO11 migliora il modo in cui questi dettagli vengono preservati, rendendo il rilevamento di oggetti piccoli più affidabile senza sacrificare le prestazioni in tempo reale. Questo equilibrio consente a YOLO11 di supportare un rilevamento accurato ed efficiente in applicazioni del mondo reale.
Unisciti alla nostra comunità in crescita! Esplora il nostro repository GitHub per saperne di più sull'AI. Scopri innovazioni come la computer vision nel retail e l'AI nell'industria automobilistica visitando le nostre pagine dedicate alle soluzioni. Per iniziare a costruire con la computer vision oggi stesso, consulta le nostre opzioni di licenza.






