Sintonizzati su YOLO Vision 2025!
25 settembre 2025
10:00 — 18:00 BST
Evento ibrido
Yolo Vision 2024

Esplorando i migliori set di dati di computer vision nel 2025

Abirami Vina

5 minuti di lettura

21 febbraio 2025

Unisciti a noi mentre esaminiamo più da vicino i migliori dataset di computer vision del 2025. Scopri come dataset diversificati e di alta qualità guidano soluzioni di Vision AI più intelligenti.

Sapevi che i dati svolgono un ruolo in quasi tutto ciò che fai quotidianamente? Guardare un video, scattare una foto o controllare Google Maps contribuisce al flusso costante di informazioni acquisite da oltre 75 miliardi di dispositivi connessi. Questi dati costituiscono le fondamenta dell'intelligenza artificiale (IA). Infatti, modelli avanzati di computer vision come Ultralytics YOLO11 si basano su dati visivi per identificare modelli, interpretare immagini e dare un senso al mondo che ci circonda.

È interessante notare che il valore dei dati non riguarda solo la quantità. È più importante quanto siano ben organizzati e preparati. Se un dataset è disordinato o incompleto, può portare a errori. Tuttavia, quando i dataset sono puliti e diversificati, aiutano i modelli di computer vision a funzionare meglio, sia che si tratti di riconoscere oggetti in una folla o di analizzare immagini complesse. I dataset di alta qualità fanno la differenza.

In questo articolo, esploreremo i migliori dataset di computer vision del 2025 e vedremo come contribuiscono alla creazione di modelli di computer vision più accurati ed efficienti. Iniziamo!

Cosa sono i dataset di computer vision?

Un dataset di computer vision è una raccolta di immagini o video che aiutano i sistemi di computer vision a imparare a comprendere e riconoscere le informazioni visive. Questi dataset sono dotati di etichette o annotazioni che aiutano i modelli a riconoscere oggetti, persone, scene e modelli all'interno dei dati.

Possono essere utilizzati per addestrare modelli di computer vision, aiutandoli a migliorare attività come l'identificazione di volti, il rilevamento di oggetti o l'analisi di scene. Migliore è il dataset - ben organizzato, diversificato e accurato - migliore è il rendimento del modello di Vision AI, portando a una tecnologia più intelligente e utile nella vita di tutti i giorni.

Come costruire un dataset di computer vision

Costruire un dataset di computer vision è come preparare appunti di studio per insegnare a qualcuno come vedere e capire il mondo. Tutto inizia con la raccolta di immagini e video che corrispondono all'applicazione specifica che stai sviluppando. 

Un dataset ideale include diversi esempi degli oggetti di interesse, acquisiti da diverse angolazioni, in varie condizioni di illuminazione e in molteplici sfondi e ambienti. Questa varietà assicura che il modello di computer vision impari a riconoscere i modelli in modo accurato e funzioni in modo affidabile in scenari del mondo reale.

__wf_reserved_inherit
Fig. 1. Costruire il dataset di visione perfetto. Immagine dell'autore.

Dopo aver raccolto immagini e video pertinenti, il passo successivo è l'etichettatura dei dati. Questo processo comporta l'aggiunta di tag, annotazioni o descrizioni ai dati in modo che l'IA possa capire cosa contiene ogni immagine o video. 

Le etichette possono includere nomi di oggetti, posizioni, confini o altri dettagli rilevanti che aiutano ad addestrare il modello a riconoscere e interpretare accuratamente le informazioni visive. L'etichettatura dei dati trasforma una semplice raccolta di immagini in un set di dati strutturato che può essere utilizzato per addestrare un modello di computer vision.

L'addestramento del modello richiede dati di alta qualità

Potresti chiederti cosa rende un set di dati di alta qualità. Ci sono molti fattori coinvolti, come l'etichettatura accurata, la diversità e la coerenza. Ad esempio, se più annotatori etichettano un set di dati di object detection per identificare le orecchie di gatto, uno potrebbe etichettarle come parte della testa mentre un altro le etichetta separatamente come orecchie. Questa incoerenza può confondere il modello e influire sulla sua capacità di apprendere correttamente.

Ecco una rapida panoramica delle qualità di un set di dati ideale per la computer vision:

  • Etichette chiare: ogni immagine è annotata accuratamente con etichette coerenti e precise.
  • Dati diversificati: il set di dati include diversi oggetti, sfondi, condizioni di illuminazione e angolazioni per aiutare il modello a funzionare bene in varie situazioni.
  • Immagini ad alta risoluzione: immagini nitide e dettagliate rendono più facile per il modello apprendere e riconoscere le caratteristiche.

Ultralytics supporta vari set di dati

I modelli Ultralytics YOLO, come YOLO11, sono progettati per funzionare con dataset in uno specifico formato di file YOLO. Sebbene sia facile convertire i propri dati in questo formato, offriamo anche un'opzione semplice per coloro che desiderano iniziare subito a sperimentare. 

Il pacchetto Python Ultralytics supporta un'ampia gamma di dataset di computer vision, consentendoti di immergerti in progetti che utilizzano task come object detection, instance segmentation o pose estimation senza alcuna configurazione aggiuntiva.  

Gli utenti possono accedere facilmente a dataset pronti all'uso come COCO, DOTA-v2.0, Open Images V7 e ImageNet specificando il nome del dataset come uno dei parametri nella funzione di training. In questo modo, il dataset viene scaricato e preconfigurato automaticamente, consentendoti di concentrarti sulla creazione e sul perfezionamento dei tuoi modelli.

I 5 principali dataset di computer vision nel 2025

I progressi nell'intelligenza artificiale visiva si basano su dataset diversi e su larga scala che guidano l'innovazione e consentono scoperte rivoluzionarie. Diamo un'occhiata ad alcuni dei dataset più importanti, supportati da Ultralytics, che stanno influenzando i modelli di computer vision.

Dataset ImageNet 

ImageNet, creato da Fei-Fei Li e dal suo team presso la Princeton University nel 2007 e introdotto nel 2009, è un ampio dataset con oltre 14 milioni di immagini etichettate. È ampiamente utilizzato per addestrare i sistemi a riconoscere e classificare diversi oggetti. La sua struttura lo rende particolarmente utile per insegnare ai modelli a classificare le immagini in modo accurato. Sebbene sia ben documentato, si concentra principalmente sulla classificazione delle immagini e manca di annotazioni dettagliate per task come l'object detection. 

Ecco uno sguardo ad alcuni dei principali punti di forza di ImageNet:

  • Diversità: con immagini che abbracciano oltre 20.000 categorie, ImageNet offre un dataset vasto e vario che migliora il training e la generalizzazione del modello.
  • Organizzazione strutturata: Le immagini sono meticolosamente categorizzate utilizzando la gerarchia WordNet, facilitando il recupero efficiente dei dati e l'addestramento sistematico dei modelli. 
  • Documentazione completa: Ricerche approfondite e anni di studio rendono ImageNet accessibile sia ai principianti che agli esperti, fornendo preziose informazioni e indicazioni per i progetti di computer vision.

Tuttavia, come ogni dataset, presenta dei limiti. Ecco alcune delle sfide da considerare:

  • Esigenze computazionali: Le sue dimensioni enormi possono rappresentare una sfida per i team più piccoli con risorse di calcolo limitate.
  • Mancanza di dati temporali: Poiché contiene solo immagini statiche, potrebbe non soddisfare le esigenze delle applicazioni che richiedono video o dati basati sul tempo.
  • Immagini obsolete: Alcune immagini nel dataset sono più datate e potrebbero non riflettere gli oggetti, gli stili o gli ambienti attuali, riducendo potenzialmente la rilevanza per le applicazioni moderne.

Dataset DOTA-v2.0

Il dataset DOTA-v2.0, dove DOTA sta per Dataset for Object Detection in Aerial Images, è una vasta raccolta di immagini aeree create appositamente per il rilevamento di oggetti con bounding box orientati (OBB). Nel rilevamento OBB, i bounding box ruotati vengono utilizzati per allinearsi più accuratamente con l'orientamento effettivo degli oggetti nell'immagine. Questo metodo funziona particolarmente bene per le immagini aeree, dove gli oggetti appaiono spesso a varie angolazioni, portando a una localizzazione più precisa e a un rilevamento complessivamente migliore.

Questo dataset è composto da oltre 11.000 immagini e più di 1,7 milioni di bounding box orientati in 18 categorie di oggetti. Le immagini variano da 800×800 a 20.000×20.000 pixel e includono oggetti come aeroplani, navi ed edifici. 

__wf_reserved_inherit
Fig. 2. Esempi di immagini e annotazioni dal dataset DOTA-v2.0. Immagine dell'autore.

Grazie alle sue annotazioni dettagliate, DOTA-v2.0 è diventata una scelta popolare per i progetti di telerilevamento e sorveglianza aerea. Ecco alcune delle caratteristiche principali di DOTA-v2.0:

  • Categorie di oggetti diversificate: Copre molti tipi di oggetti diversi, come veicoli, porti e serbatoi di stoccaggio, offrendo ai modelli l'esposizione a vari oggetti del mondo reale.
  • Annotazioni di alta qualità: Annotatori esperti hanno fornito bounding box orientati con precisione che mostrano chiaramente le forme e le direzioni degli oggetti.
  • Immagini multiscala: Il dataset include immagini di diverse dimensioni, aiutando i modelli a imparare come rilevare oggetti sia su piccola che su larga scala.

Sebbene DOTA-v2 abbia molti punti di forza, ecco alcune limitazioni che gli utenti dovrebbero tenere a mente:

  • Passaggi di download aggiuntivi: A causa del modo in cui viene gestito il dataset DOTA, DOTA-v2.0 richiede un passaggio di configurazione aggiuntivo. È necessario prima scaricare le immagini DOTA-v1.0 e quindi aggiungere le immagini extra e le annotazioni aggiornate per DOTA-v2.0 per completare il dataset.
  • Annotazioni complesse: I bounding box orientati possono richiedere uno sforzo aggiuntivo per la gestione durante l'addestramento del modello.
  • Ambito limitato: DOTA-v2 è progettato per immagini aeree, il che lo rende meno utile per attività generali di object detection al di fuori di questo dominio.

Dataset Roboflow 100 

Il dataset Roboflow 100 (RF100) è stato creato da Roboflow con il supporto di Intel. Può essere utilizzato per testare e valutare le prestazioni dei modelli di object detection. Questo dataset di benchmark include 100 diversi dataset scelti tra oltre 90.000 dataset pubblici. Ha più di 224.000 immagini e 800 classi di oggetti provenienti da aree come l'assistenza sanitaria, le viste aeree e il gaming. 

Ecco alcuni dei principali vantaggi dell'utilizzo di RF100:

  • Ampia copertura del dominio: Include dataset provenienti da sette settori, come l'imaging medico, le viste aeree e l'esplorazione subacquea. 
  • Incoraggia il miglioramento del modello: La variabilità e le sfide specifiche del dominio in RF100 rivelano lacune nei modelli attuali, spingendo la ricerca verso soluzioni di object detection più adattabili e robuste.
  • Formato immagine uniforme: Tutte le immagini vengono ridimensionate a 640x640 pixel. Questo aiuta gli utenti ad addestrare i modelli senza dover modificare le dimensioni delle immagini.

Nonostante i suoi punti di forza, RF100 presenta anche alcuni svantaggi da tenere a mente:

  • Limitato in termini di attività: RF100 è progettato per il rilevamento di oggetti, quindi non può supportare attività come la segmentazione o la classificazione.
  • Focalizzazione sui benchmark: RF100 è progettato principalmente come strumento di benchmarking piuttosto che per l'addestramento di modelli per applicazioni reali, quindi i suoi risultati potrebbero non essere pienamente trasferibili a scenari di implementazione pratica.
  • Variabilità delle annotazioni: Poiché RF100 aggrega dataset provenienti da crowdsourcing, possono esserci incongruenze nella qualità delle annotazioni e nelle pratiche di etichettatura, il che può influire sulla valutazione e sulla messa a punto del modello.

Dataset COCO (Common Objects in Context)

Il dataset COCO è uno dei dataset di computer vision più utilizzati, con oltre 330.000 immagini e annotazioni dettagliate. È progettato per il rilevamento di oggetti, la segmentazione e la didascalia delle immagini, il che lo rende una risorsa preziosa per molti progetti. Le sue etichette dettagliate, tra cui bounding box e maschere di segmentazione, aiutano i sistemi a imparare ad analizzare le immagini con precisione.

Questo dataset è noto per la sua flessibilità ed è utile per varie attività, dai progetti semplici a quelli complessi. È diventato uno standard nel campo della Vision AI, frequentemente utilizzato in sfide e competizioni per valutare le prestazioni dei modelli.

Alcuni dei suoi punti di forza includono:

  • Dati diversificati e realistici: Il dataset include immagini provenienti da scenari reali con oggetti multipli, occlusioni e condizioni di illuminazione variabili.
  • Forte adozione da parte della comunità e della ricerca: Utilizzato nelle principali competizioni di machine learning e nella ricerca, il dataset COCO dispone di un'ampia documentazione, modelli pre-addestrati e un attivo supporto della comunità.
  • Annotazioni ricche e dettagliate: Il dataset COCO fornisce annotazioni altamente dettagliate, tra cui la segmentazione degli oggetti, i punti chiave e le didascalie, rendendolo ideale per i progetti che richiedono una precisa comprensione visiva.

Ecco alcuni fattori limitanti di cui essere consapevoli:

  • Elevati requisiti computazionali: A causa delle sue dimensioni e complessità, l'addestramento di modelli su COCO può richiedere notevoli risorse computazionali, rendendolo impegnativo per i team con hardware limitato.
  • Squilibrio dei dati: Alcune categorie di oggetti hanno molte più immagini rispetto ad altre, il che può portare a distorsioni nell'addestramento del modello.
  • Struttura di annotazione complessa: Le annotazioni dettagliate del dataset, sebbene preziose, possono essere eccessive per i principianti o per i team più piccoli che non hanno esperienza nel lavorare con dataset strutturati di Vision AI.

Dataset Open Images V7

Open Images V7 è un enorme dataset open-source curato da Google, con oltre 9 milioni di immagini con annotazioni per 600 categorie di oggetti. Include una varietà di tipi di annotazione ed è ideale per affrontare compiti complessi di computer vision. La sua scala e profondità forniscono una risorsa completa per l'addestramento e il test di modelli di computer vision.

__wf_reserved_inherit
Fig 3. Uno sguardo al dataset Open Images V7. Immagine dell'autore.

Inoltre, la popolarità del dataset Open Images V7 nella ricerca fornisce molte risorse ed esempi da cui gli utenti possono imparare. Tuttavia, le sue dimensioni enormi possono rendere il download e l'elaborazione dispendiosi in termini di tempo, soprattutto per i team più piccoli. Un altro problema è che alcune annotazioni potrebbero essere incoerenti, richiedendo uno sforzo extra per pulire i dati, e l'integrazione non è sempre perfetta, il che significa che potrebbe essere necessaria una preparazione aggiuntiva. 

Scegliere il dataset giusto 

Scegliere il dataset giusto è una parte importante per impostare il tuo progetto di computer vision verso il successo. La scelta migliore dipende dal tuo compito specifico: trovare una buona corrispondenza aiuta il tuo modello a imparare le giuste competenze. Dovrebbe anche integrarsi facilmente con i tuoi strumenti, in modo da poterti concentrare maggiormente sulla costruzione del tuo modello e meno sulla risoluzione dei problemi.

__wf_reserved_inherit
Fig 4. Fattori per la scelta del dataset giusto. Immagine dell'autore.

Punti chiave

I dataset di alta qualità sono la spina dorsale di qualsiasi modello di computer vision, aiutando i sistemi a interpretare le immagini in modo accurato. Dataset diversificati e ben annotati sono particolarmente importanti, in quanto consentono ai modelli di funzionare in modo affidabile in scenari reali e di ridurre gli errori causati da dati limitati o di scarsa qualità.

Ultralytics semplifica il processo di accesso e lavoro con i dataset di computer vision, rendendo più facile trovare i dati giusti per il tuo progetto. Scegliere il dataset giusto è un passo cruciale nella costruzione di un modello ad alte prestazioni, portando a risultati più precisi e di impatto.

Unisciti alla nostra community ed esplora il nostro repository GitHub per saperne di più sull'IA. Scopri progressi come la computer vision per la sanità e l'IA nelle auto a guida autonoma nelle nostre pagine delle soluzioni. Dai un'occhiata alle nostre opzioni di licenza e fai il primo passo per iniziare oggi stesso con la computer vision!

Costruiamo insieme il futuro
dell'AI!

Inizia il tuo viaggio con il futuro del machine learning

Inizia gratis
Link copiato negli appunti