Gestione intelligente dei dataset nella computer vision con Ultralytics Platform
Esplora come puoi utilizzare Ultralytics Platform per una migliore gestione dei dataset nei tuoi progetti di computer vision. Traccia, confronta e migliora i tuoi dataset con facilità.

La visione artificiale, o computer vision, ha fatto molta strada dai suoi primi passi, evolvendosi dalla ricerca sperimentale a una tecnologia chiave che alimenta applicazioni del mondo reale. Oggi, gli appassionati di IA possono creare potenti modelli per attività come il rilevamento di oggetti e la segmentazione delle istanze utilizzando strumenti e framework accessibili.
Tuttavia, man mano che queste applicazioni passano dalla sperimentazione alla produzione, la gestione dei dataset rimane una sfida critica e spesso trascurata. Poiché i dataset di computer vision crescono in dimensioni e complessità, i team faticano spesso a mantenere annotazioni coerenti, a tracciare le modifiche tra le versioni e a garantire la qualità complessiva dei dati.
Anche i modelli più all'avanguardia possono avere prestazioni inferiori in ambienti reali se i dati su cui vengono addestrati sono incompleti, sbilanciati o gestiti male. Questo divario crescente tra le prestazioni in fase di sviluppo e l'affidabilità nel mondo reale è il motivo per cui è necessario un approccio più strutturato alla gestione dei dataset.
Un'altra limitazione comune è che la raccolta, l'annotazione e l'addestramento dei dati sono spesso gestiti utilizzando strumenti separati. Un flusso di lavoro frammentato rende più difficile gestire i dataset in modo efficiente, aumenta il rischio di incoerenze e rallenta l'iterazione.
Per risolvere i colli di bottiglia della visione artificiale come la gestione dei dataset e i flussi di lavoro frammentati, abbiamo lanciato di recente Ultralytics Platform. Si tratta di uno spazio di lavoro end-to-end che unisce gestione dei dataset, annotazione, addestramento, distribuzione e monitoraggio in un unico flusso di lavoro unificato.
Collegando ogni fase del ciclo di vita della computer vision, diventa più facile tracciare le modifiche ai dataset, confrontare le prestazioni tra le versioni e affinare continuamente i tuoi dati per ottenere risultati migliori.

Fig 1. Un esempio di visualizzazione delle immagini del tuo dataset all'interno di Ultralytics Platform (Fonte)
In questo articolo, approfondiremo come Ultralytics Platform ti aiuta a tracciare, confrontare e migliorare i tuoi dataset per costruire modelli di computer vision più affidabili. Iniziamo!
Link to this sectionL'importanza della gestione dei dataset nella computer vision#
Le prestazioni di un modello di computer vision sono strettamente legate ai dati su cui viene addestrato. L'accuratezza del modello, ovvero la frequenza con cui le previsioni sono corrette, dipende non solo dall'algoritmo, ma da quanto bene il dataset rappresenta le condizioni del mondo reale.
In parole povere, un modello apprende i pattern direttamente dai dati, quindi qualsiasi lacuna, pregiudizio o incoerenza nel dataset può influenzare il modo in cui effettua le previsioni. In altre parole, dati di scarsa qualità, annotazioni errate o una copertura limitata delle variazioni del mondo reale nelle immagini, come diverse condizioni di luce, angolazioni degli oggetti, sfondi o livelli di occlusione, possono ridurre significativamente l'accuratezza, anche se l'architettura del modello in sé è solida.
Questo vale anche quando si perfeziona (fine-tuning) un modello, dove un modello pre-addestrato viene ulteriormente addestrato su dati nuovi o aggiornati per adattarlo meglio a uno specifico caso d'uso o ambiente. Poiché l'accuratezza del modello dipende così tanto dai dati, gestire correttamente tali dati diventa essenziale.
La gestione dei dataset include l'organizzazione, l'etichettatura e l'aggiornamento continuo dei dati in modo che rimangano accurati e pertinenti. Questo rende più facile migliorare le prestazioni nel tempo, specialmente durante il riaddestramento o il perfezionamento dei modelli su nuovi dati.
Link to this sectionCome la qualità del dataset influisce sull'affidabilità nel mondo reale#
I casi d'uso della computer vision, come i sistemi di monitoraggio della sicurezza, sono un ottimo esempio del perché una corretta gestione dei dati sia fondamentale. Questi sistemi devono funzionare in modo affidabile in una gamma di condizioni reali, inclusi diversi ambienti di illuminazione, angolazioni della telecamera, livelli di affollamento e occlusioni parziali.
Se i dati di addestramento non coprono queste variazioni o mancano di diversità nel modo in cui gli oggetti appaiono nelle diverse scene e condizioni, il modello potrebbe avere difficoltà a rilevare gli oggetti con precisione. Ad esempio, un modello addestrato principalmente su scene ben illuminate e non ingombre potrebbe avere prestazioni scarse in ambienti con scarsa illuminazione o in contesti affollati. Nei sistemi di sicurezza, questo può portare a eventi mancati o falsi allarmi.
Per evitarlo, è importante mantenere dataset che non siano solo puliti e annotati accuratamente, ma anche ben bilanciati e aggiornati continuamente. Ciò significa identificare le lacune nei dati, aggiungere nuovi esempi man mano che le condizioni cambiano e assicurarsi che le diverse classi e gli ambienti siano rappresentati in modo uniforme.
Con un dataset più completo e strutturato, i modelli sono meglio equipaggiati per gestire la variabilità del mondo reale e produrre previsioni più affidabili.
Link to this sectionAspetti chiave della gestione dei dataset#
Allora, com'è fatta concretamente la gestione dei dataset? Comporta l'organizzazione, l'etichettatura e il mantenimento dei dati in modo che possano essere utilizzati efficacemente durante tutto il processo di sviluppo del modello.
L'organizzazione dei dati, ad esempio, include la strutturazione del dataset e la suddivisione in set di addestramento, validazione e test. Il set di addestramento viene utilizzato per istruire il modello, il set di validazione serve a monitorare le prestazioni e guidare gli aggiustamenti durante lo sviluppo, e il set di test viene utilizzato per valutare quanto bene il modello finale si comporta su dati completamente inediti.
Nel frattempo, l'etichettatura comporta l'annotazione delle immagini con dettagli come etichette di classe, bounding box o maschere di segmentazione. Poiché il modello apprende da queste annotazioni, l'accuratezza e la coerenza sono cruciali per aiutarlo a imparare pattern significativi e a fare previsioni affidabili.
Oltre a questo, mantenere il dataset comporta la revisione e l'aggiornamento dei dati nel tempo. Ciò può includere la correzione di errori di annotazione, la rimozione di dati di bassa qualità o duplicati e l'aggiunta di nuovi esempi per coprire casi mancanti o condizioni mutevoli.
Più in generale, la gestione dei dataset è un processo continuo. Man mano che i modelli vengono valutati e vengono raccolti nuovi dati, i dataset devono essere aggiornati per riflettere le condizioni del mondo reale e i casi limite (edge cases). Tracciare questi aggiornamenti e confrontare diverse versioni aiuta i team a capire cosa sta migliorando le prestazioni e dove sono necessari ulteriori cambiamenti.
Link to this sectionGestione dei dataset con Ultralytics Platform#
Ultralytics Platform fornisce un flusso di lavoro strutturato per la gestione dei dataset all'interno di un unico ambiente, coprendo tutto, dalla preparazione dei dati all'esportazione. È progettata per supportare sia i singoli sviluppatori che i team, rendendo più semplice gestire i dataset in modo coerente, indipendentemente dal fatto che tu stia lavorando in autonomia o collaborando su più progetti.
Ogni fase è progettata per semplificare il modo in cui i dataset vengono organizzati, elaborati e utilizzati durante tutto il ciclo di vita dello sviluppo del modello. Portando questi passaggi in un unico posto, la piattaforma riduce la frammentazione e rende più semplice mantenere la coerenza tra i flussi di lavoro.
Ora, esaminiamo i passaggi chiave coinvolti e come la piattaforma supporta ciascuno di essi.
Link to this sectionCaricamento dei dataset su Ultralytics Platform#
Iniziare con i dataset sulla piattaforma è flessibile, con molteplici modi per importare o riutilizzare i dati. Puoi caricare i tuoi dati o iniziare più velocemente utilizzando i dataset pubblici disponibili tramite la piattaforma. Puoi anche clonare dataset esistenti condivisi dalla community e svilupparli ulteriormente.
Le funzionalità della community della piattaforma rendono facile esplorare e riutilizzare il lavoro esistente. Con l'accesso a dataset creati da altri utenti, inclusi milioni di immagini e annotazioni, puoi iniziare rapidamente senza dover raccogliere ed etichettare tutto da solo. Clonare un dataset crea una copia nel tuo spazio di lavoro, permettendoti di modificarlo ed estenderlo preservando l'originale.
Per i caricamenti, la piattaforma supporta singole immagini, video e archivi di dataset come file ZIP, TAR o GZ. Supporta anche formati di dataset ampiamente utilizzati come YOLO e COCO, facilitando l'importazione di dataset e annotazioni esistenti senza conversioni aggiuntive. Oltre a questo, puoi caricare un dataset utilizzando un file NDJSON esportato dalla piattaforma, rendendo fluido ricreare o riutilizzare i dataset tra i progetti.
Una volta caricati, la piattaforma elabora i dati attraverso una pipeline strutturata. Ciò include la convalida dei formati e delle dimensioni dei file, il ridimensionamento delle immagini quando necessario, l'analisi delle annotazioni e la generazione di statistiche del dataset.
Ad esempio, i video vengono convertiti in fotogrammi in modo che possano essere utilizzati per l'addestramento, mentre le immagini vengono ottimizzate e preparate per una navigazione e un'analisi più semplici. Dopo l'elaborazione, i dataset sono pronti per essere utilizzati per l'annotazione, l'analisi e l'addestramento del modello all'interno della piattaforma.
Link to this sectionAnnotazione dei dati su Ultralytics Platform#
Una volta caricati, i dataset possono essere rivisti e annotati direttamente all'interno della piattaforma. La piattaforma include strumenti integrati di annotazione di immagini per una serie di attività di computer vision, come il rilevamento di oggetti, la segmentazione delle istanze, la stima della posa, il rilevamento di bounding box orientati (OBB) e la classificazione delle immagini.

Fig 2. Utilizzo di Ultralytics Platform per l'etichettatura dei dati (Fonte)
Le annotazioni possono essere create manualmente utilizzando questi strumenti o accelerate con funzionalità assistite dall'IA come l'annotazione intelligente basata su SAM. Con SAM, puoi generare maschere, bounding box o box orientati interagendo con l'immagine, aiutando ad accelerare il processo di etichettatura mantenendo l'accuratezza.
Link to this sectionAnalisi della qualità del dataset tramite Ultralytics Platform#
Oltre a preparare e annotare i dati, comprendere la qualità del dataset è essenziale per costruire modelli di computer vision affidabili. Senza una chiara visibilità su fattori come la distribuzione delle classi, la qualità delle annotazioni, le suddivisioni del dataset e come i dati sono rappresentati in diverse condizioni, può essere difficile individuare problemi che influiscono sulle prestazioni del modello.
Ultralytics Platform include funzionalità integrate per aiutare ad analizzare i dataset in modo più efficace. Questi approfondimenti sono disponibili direttamente nell'interfaccia del dataset, attraverso schede come Immagini, Classi e Grafici.
Nella scheda Grafici, puoi visualizzare statistiche a livello di dataset come la distribuzione delle suddivisioni (addestramento, validazione e test), la frequenza delle classi e mappe di calore delle annotazioni che mostrano dove appaiono gli oggetti all'interno delle immagini.
La scheda Classi fornisce un riepilogo dei conteggi delle annotazioni per classe, rendendo più facile individuare lo sbilanciamento delle classi. Nel frattempo, la scheda Immagini mostra dettagli a livello di immagine come dimensioni, conteggio delle annotazioni e come le etichette sono distribuite tra le singole immagini.
Questi approfondimenti rendono più semplice identificare problemi come lo sbilanciamento delle classi, scenari mancanti o una distribuzione non uniforme dei dati. Ad esempio, potresti notare che alcune classi hanno pochissimi esempi o che la maggior parte delle annotazioni è concentrata in aree specifiche di un'immagine.
Oltre all'analisi dei dati, la piattaforma supporta la cura e l'aumento dei dataset, ovvero il perfezionamento dei dataset correggendo o rimuovendo dati problematici e creando variazioni dei dati esistenti per migliorare le prestazioni del modello. Questi miglioramenti possono essere apportati direttamente all'interno della piattaforma aggiornando le annotazioni, aggiungendo nuovi dati o riorganizzando le suddivisioni del dataset basandosi sugli approfondimenti derivanti dall'analisi.
Link to this sectionEsportazione di dataset da Ultralytics Platform#
Una volta che un dataset è preparato e convalidato, può essere esportato per l'uso in diversi ambienti. Questo ti dà la flessibilità di utilizzare i tuoi dati di computer vision ovunque preferisci, che si tratti di addestrare modelli localmente, nel cloud o in altri strumenti e flussi di lavoro.
Ultralytics Platform supporta molteplici formati di esportazione, inclusi YOLO, COCO e NDJSON, facilitando l'integrazione dei dataset in diversi flussi di lavoro e strumenti di addestramento.

Fig 3. Esportazione di un dataset da Ultralytics Platform (Fonte)
Esportare un dataset crea un'istantanea fissa dei dati in un momento specifico, incluse le immagini, le annotazioni e la struttura. Questo è utile perché i dataset cambiano spesso man mano che vengono aggiunti nuovi dati, aggiornate le annotazioni o modificate le suddivisioni. Esportando un'istantanea, puoi preservare l'esatta versione del dataset utilizzata per un particolare ciclo di addestramento.
Ciò rende più semplice riprodurre i risultati in seguito, poiché puoi addestrare un modello sullo stesso setup di dati e confrontare le prestazioni tra diverse versioni del dataset. Ad esempio, puoi valutare se l'aggiunta di nuove immagini o la correzione delle annotazioni migliora effettivamente l'accuratezza del modello, invece di ipotizzare cosa sia cambiato.
Le esportazioni sono gestite in modo asincrono e, una volta pronte, i dataset possono essere scaricati e utilizzati in ambienti di addestramento locali, cloud o offline.
Link to this sectionMiglioramento della qualità del dataset attraverso iterazioni su Ultralytics Platform#
Nei flussi di lavoro di machine learning e deep learning, la gestione dei dataset continua anche dopo la distribuzione, poiché i dati del mondo reale differiscono spesso dai dati utilizzati durante l'addestramento.
Man mano che i modelli incontrano nuovi input, lacune nel dataset, come condizioni mancanti quali ambienti con scarsa illuminazione, angolazioni della telecamera diverse, occlusioni o scene affollate, così come errori di annotazione, diventano più evidenti, rendendo necessario affinare i dati nel tempo.
Ci sono diversi modi per migliorare un dataset. Puoi aggiungere nuove immagini o video per coprire condizioni mancanti, come ambienti con scarsa illuminazione, angolazioni della telecamera diverse, occlusioni o scene affollate, aiutando a ridurre i punti ciechi nei dati.
Allo stesso tempo, garantire che le annotazioni siano accurate e coerenti, come oggetti etichettati correttamente e bounding box o maschere precise, aiuta il modello ad apprendere pattern più affidabili.
Questo segue solitamente un semplice ciclo: addestra il modello, valuta i risultati, identifica gli errori, migliora il dataset e riaddestra. Ogni passaggio aiuta a evidenziare problemi come annotazioni errate, dati mancanti o casi sottorappresentati.
Diciamo che stai lavorando a un sistema di monitoraggio degli scaffali retail in tempo reale utilizzato per rilevare prodotti nei negozi. Le prime versioni del dataset potrebbero non includere determinati tipi di prodotti, condizioni di illuminazione o disposizioni affollate degli scaffali. Durante la valutazione, potresti notare che il modello fatica a rilevare gli articoli in queste situazioni.
Per migliorare le prestazioni, puoi raccogliere nuove immagini che coprano questi scenari mancanti e aggiornare le annotazioni dove necessario. Nel tempo, ripetere questo processo aiuta il modello a diventare più accurato e affidabile nelle condizioni del mondo reale.
Ultralytics Platform supporta questo flusso di lavoro collegando gli aggiornamenti del dataset con l'addestramento e la valutazione. Con il tracciamento degli esperimenti integrato e le metriche di prestazione, diventa più facile monitorare i progressi e migliorare continuamente i dataset nel tempo.
Link to this sectionTracciamento delle modifiche al dataset utilizzando Ultralytics Platform#
Abbiamo discusso brevemente di come i dataset si evolvono nel tempo come parte del processo di sviluppo del modello. Man mano che vengono aggiunti nuovi dati, le annotazioni vengono affinate e le classi vengono aggiornate, tenere traccia di questi cambiamenti diventa fondamentale per mantenere la qualità dei dati e garantire prestazioni coerenti del modello.
Ecco alcune delle funzionalità chiave di Ultralytics Platform che supportano il tracciamento dei dataset e il controllo delle versioni:
- Versionamento dei dataset: Puoi creare versioni fisse dei dataset come istantanee NDJSON. Ogni versione cattura dettagli chiave come il conteggio delle immagini, il conteggio delle classi, il conteggio delle annotazioni e la dimensione del dataset in un momento specifico. Queste versioni vengono archiviate e possono essere scaricate in seguito, rendendo più facile riprodurre gli esperimenti e confrontare i risultati tra diversi stati del dataset.
- Scheda Versioni: Tutte le versioni del dataset sono organizzate nella scheda Versioni, dove puoi visualizzare la cronologia delle versioni, aggiungere descrizioni alle modifiche e tracciare come il dataset si evolve nel tempo.
- Collegamento con i modelli: La scheda Modelli mostra tutti i modelli addestrati su un dataset, incluse metriche come mAP e dettagli sull'addestramento. Le versioni del dataset sono legate ai cicli di addestramento, aiutandoti a capire come i cambiamenti nei dati influiscono sulle prestazioni del modello.
- Scheda Errori: La scheda Errori evidenzia i file che non sono riusciti durante l'elaborazione, insieme ai dettagli dell'errore e suggerimenti. Ciò ti consente di identificare e correggere problemi come file corrotti o formati non supportati prima dell'addestramento.
- Interfaccia del dataset (schede Immagini e Classi): Queste viste ti consentono di navigare tra le immagini, rivedere le annotazioni, gestire le etichette delle classi e analizzare la distribuzione delle classi. Funzionalità come il filtraggio, l'ordinamento e l'identificazione di immagini non annotate rendono più semplice monitorare la qualità del dataset nel tempo.
- Statistiche e grafici: Le visualizzazioni dei dati integrate, come la distribuzione delle suddivisioni, la frequenza delle classi e le mappe di calore delle annotazioni, aiutano a tracciare i cambiamenti nella distribuzione dei dati e a identificare gli sbilanciamenti man mano che il dataset si evolve.

Fig 4. Uno sguardo all'analisi della distribuzione delle classi di un dataset su Ultralytics Platform (Fonte)
Link to this sectionCollegamento dei dataset all'addestramento e alla distribuzione all'interno di Ultralytics Platform#
Ultralytics Platform collega diverse fasi dello sviluppo di modelli di IA in un'unica pipeline. Questo semplifica il processo che va dai dati grezzi alle applicazioni di visione artificiale pronte per la produzione.
Una volta che i dataset sono preparati e annotati, possono essere utilizzati per addestrare modelli di computer vision, come Ultralytics YOLO26, direttamente all'interno della piattaforma. Durante l'addestramento, puoi monitorare le metriche di prestazione, tracciare esperimenti e valutare quanto bene il modello sta imparando utilizzando dashboard integrate.

Fig 5. Un'occhiata alla visualizzazione delle metriche di addestramento del modello su Ultralytics Platform (Fonte)
Dopo l'addestramento, i modelli possono essere testati su nuove immagini direttamente nel browser per valutare le previsioni e identificare aree di miglioramento prima della distribuzione. Quando il modello offre buone prestazioni, può essere distribuito in produzione.
La piattaforma supporta l'esportazione dei modelli in molteplici formati o la loro distribuzione tramite servizi di inferenza ed endpoint dedicati, consentendo loro di funzionare in diversi ambienti.
Una volta distribuiti, gli strumenti di monitoraggio integrati aiutano a tracciare le prestazioni del sistema nel tempo, incluse metriche relative all'utilizzo e al comportamento del modello. Ciò rende più semplice mantenere e migliorare i sistemi di visione artificiale nelle applicazioni del mondo reale.
Link to this sectionBest practice per la gestione dei dataset con Ultralytics Platform#
Ecco alcuni fattori chiave da tenere a mente quando gestisci i tuoi dataset utilizzando Ultralytics Platform:
- Usa i filtri per trovare le lacune: Identifica i dati non etichettati o sottorappresentati utilizzando strumenti di filtraggio, rendendo più fluido completare le annotazioni e migliorare la copertura.
- Correggi gli errori precocemente: Usa la scheda Errori per il controllo qualità per rilevare caricamenti non riusciti, file corrotti o formati non supportati prima dell'addestramento.
- Aggiorna continuamente i dataset: Aggiungi nuovi dati, correggi le annotazioni e includi casi limite man mano che appaiono. Questo aiuta a migliorare la copertura e garantisce che i modelli funzionino in modo affidabile negli scenari del mondo reale.
- Gestisci le suddivisioni del dataset con attenzione: Assicurati un buon equilibrio tra set di addestramento, validazione e test. Puoi riorganizzare le suddivisioni manualmente o utilizzare la ridistribuzione automatica quando necessario.
Per saperne di più su Ultralytics Platform, consulta la documentazione ufficiale di Ultralytics.
Link to this sectionPunti chiave#
Man mano che i progetti di visione artificiale si scalano, la gestione efficace dei dataset diventa importante tanto quanto lo sviluppo del modello. Un approccio strutturato alla gestione dei dataset aiuta a migliorare la qualità dei dati, ottimizzare i flussi di lavoro e supportare migliori prestazioni del modello nel tempo.
Ultralytics Platform semplifica questo processo portando la gestione dei dataset, l'addestramento e la distribuzione in un unico flusso di lavoro. Adottando un approccio strutturato alla gestione dei dataset, i team possono ridurre la complessità, migliorare l'efficienza e costruire sistemi di visione artificiale più scalabili e affidabili.
Unisciti alla nostra community in crescita ed esplora il nostro repository GitHub per le risorse sull'IA. Per costruire con la visione artificiale oggi, dai un'occhiata alle nostre opzioni di licenza. Scopri come l'IA in agricoltura sta trasformando l'agricoltura e come l'IA per la visione artificiale nel settore sanitario sta plasmando il futuro visitando le nostre pagine dedicate alle soluzioni.






