Cliccando su “Accetta tutti i cookie”, l'utente accetta di memorizzare i cookie sul proprio dispositivo per migliorare la navigazione del sito, analizzare l'utilizzo del sito e assistere le nostre attività di marketing. Maggiori informazioni
Impostazioni dei cookie
Cliccando su “Accetta tutti i cookie”, l'utente accetta di memorizzare i cookie sul proprio dispositivo per migliorare la navigazione del sito, analizzare l'utilizzo del sito e assistere le nostre attività di marketing. Maggiori informazioni
Scopri come i dati annotati dall'uomo migliorano l'accuratezza dei modelli di visione artificiale e perché l'esperienza umana è ancora essenziale per sistemi di visione artificiale affidabili.
Vent'anni fa, se qualcuno avesse detto che stava pensando di acquistare un robot per aiutarlo nelle faccende domestiche, sarebbe sembrato davvero inverosimile. Tuttavia, siamo nel pieno del boom dell'intelligenza artificiale e i robot vengono testati in scenari simili.
Un campo chiave dell'IA che sta guidando questo progresso è la visione artificiale, che conferisce alle macchine la capacità di comprendere immagini e video. In altre parole, modelli di visione artificiale come Ultralytics YOLO11 e il prossimo Ultralytics possono essere addestrati su set di dati costituiti da dati visivi e annotazioni.
Queste annotazioni aiutano il modello a comprendere i dati visivi. Ad esempio, i set di dati per il rilevamento di oggetti utilizzano riquadri di delimitazione per disegnare rettangoli attorno agli oggetti di interesse. Ciò consente al modello di detect localizzare tali oggetti in nuove immagini, anche quando la scena è disordinata o l'oggetto è parzialmente nascosto.
Altre attività di visione artificiale dipendono da diversi tipi di annotazioni. I set di dati di segmentazione etichettano il contorno esatto di un oggetto a livello di pixel, mentre i set di dati dei punti chiave contrassegnano punti di riferimento specifici, come le articolazioni di una persona.
Tuttavia, in tutti questi formati, un fattore cruciale è la qualità e la coerenza delle etichette. I modelli apprendono direttamente dai dati su cui vengono addestrati, quindi se le etichette sono incoerenti o errate, il modello spesso riporterà tali errori nelle sue previsioni.
Anche con l'automazione, i set di dati annotati dall'uomo rimangono fondamentali, specialmente in settori ad alto rischio come l'imaging medico. Piccoli errori di etichettatura, come un confine impreciso del tumore o un'anomalia non rilevata, possono insegnare al modello un modello errato e portare a previsioni non sicure in seguito. Gli esperti umani forniscono la verità oggettiva e il giudizio accurati richiesti da queste applicazioni.
Fig. 1. È necessario disporre di set di dati annotati dall'uomo. Immagine dell'autore.
In questo articolo vedremo più da vicino perché i dati annotati dall'uomo sono essenziali, anche se l'intelligenza artificiale continua a progredire.
La necessità di annotazioni su immagini e video
I modelli di visione artificiale imparano in modo molto simile a noi, osservando molti esempi. La differenza è che imparano attraverso l'addestramento su grandi set di dati di immagini e video che gli esseri umani etichettano in anticipo. Queste etichette fungono da verità di base, insegnando al modello cose come: questo è un pedone, qui c'è il confine di un tumore, quell'oggetto è un'auto.
Le immagini del mondo reale raramente sono nitide o uniformi. L'illuminazione può variare e far apparire diverso lo stesso oggetto. Persone e veicoli possono sovrapporsi o essere parzialmente nascosti. Gli sfondi possono essere caotici e distrarre l'attenzione. Quando i set di dati includono etichette accurate e coerenti in tutte queste situazioni, i modelli sono molto più preparati ad affrontare ciò che incontreranno al di fuori di contesti controllati.
L'annotazione dei dati non si limita alla semplice creazione di riquadri o al tracciamento di contorni. Comporta l'applicazione di linee guida e decisioni pratiche su cosa considerare come oggetto, dove tracciarne i confini e cosa fare in caso di ambiguità. Questo giudizio umano garantisce l'accuratezza e l'utilizzabilità dei dati.
Alla fine, un sistema di visione artificiale funziona bene solo nella misura in cui lo consentono i dati etichettati da cui apprende. In applicazioni ad alto impatto come l'individuazione del cancro nelle scansioni o il rilevamento dei pericoli stradali per le auto a guida autonoma, etichette precise apposte da personale qualificato fanno davvero la differenza in termini di accuratezza e sicurezza.
L'ascesa dell'automazione nell'annotazione dei dati
Con l'espansione della visione artificiale e la crescita dei set di dati, l'automazione sta diventando un metodo comune per velocizzare l'annotazione. Anziché etichettare tutto manualmente, i team utilizzano modelli di intelligenza artificiale per produrre una prima serie di etichette.
Gli esseri umani poi controllano i risultati, sistemano gli errori e gestiscono i casi che il modello non riesce a etichettare con sicurezza. Questo approccio velocizza l'annotazione mantenendo alta la qualità.
Ecco alcuni modi in cui l'automazione aiuta tipicamente nell'annotazione dei dati:
Segmentazione automatica: i modelli possono suggerire automaticamente i contorni degli oggetti o le maschere a livello di pixel, riducendo così la quantità di tracciamento manuale che gli annotatori devono eseguire.
Tracciamento del flusso ottico: quando si tratta di video, i metodi di tracciamento possono seguire un oggetto in movimento attraverso i fotogrammi e riportarne l'etichetta, contribuendo a mantenere coerenti le annotazioni nel tempo.
Interpolazione dei fotogrammi: gli strumenti possono inserire etichette per i fotogrammi tra due fotogrammi etichettati utilizzando indicazioni di movimento e tracciamento, in modo che gli annotatori non debbano etichettare ogni singolo fotogramma.
Apprendimento attivo: i percorsi di formazione possono identificare gli esempi che il modello ritiene incerti o insoliti e inviarli prima agli esseri umani, in modo che lo sforzo manuale sia dedicato ai dati che migliorano maggiormente le prestazioni.
Perché l'annotazione dei dati da parte dell'uomo è ancora così importante
Sebbene l'automazione possa velocizzare l'etichettatura, i modelli di IA necessitano ancora del giudizio umano per garantire accuratezza e affidabilità.
Ecco alcune aree chiave in cui l'esperienza umana ha un impatto sull'annotazione dei dati:
Comprensione del contesto: le immagini e i video reali sono spesso disordinati. Ombre, riflessi, sfocature dovute al movimento e oggetti sovrapposti possono confondere gli strumenti automatizzati. Gli annotatori umani sono in grado di interpretare ciò che sta realmente accadendo, rendendo le etichette più accurate.
Mantenere la coerenza delle etichette: con l'aumentare dei set di dati, le etichette automatizzate possono subire variazioni o differenze tra i diversi batch. Gli esseri umani possono controllare, correggere e allineare le etichette in modo che il set di dati rimanga coerente dall'inizio alla fine.
Ridurre pregiudizi e danni: le persone sono più brave a individuare contenuti sensibili, sfumature culturali e modelli che potrebbero introdurre pregiudizi. La loro supervisione contribuisce a rendere i set di dati più equi ed evita danni involontari.
Applicazione delle competenze specifiche: alcune attività richiedono conoscenze specifiche, come l'identificazione di anomalie mediche o difetti industriali. Gli esperti possono fornire etichette precise e risolvere casi ambigui in modo che il modello apprenda i dettagli corretti.
Una panoramica dell'annotazione human-in-the-loop
Strumenti e piattaforme di annotazione come Roboflow l'automazione per velocizzare l'etichettatura, spesso utilizzando modelli di base come Segment Anything Model 3 o SAM3. SAM3 è il modello di base di segmentazione promptabile di Meta AI.
È in grado di detect, segment e track in immagini e video a partire da semplici comandi come clic, riquadri di delimitazione o brevi frasi di testo, producendo maschere di segmentazione per oggetti corrispondenti senza necessità di formazione specifica per ogni nuova categoria.
Nonostante questi approcci all'avanguardia, è ancora necessario ricorrere a esperti umani per rivedere e finalizzare le annotazioni. Quando gli strumenti automatizzati producono una prima bozza e gli esseri umani la verificano, la correggono e la perfezionano, il flusso di lavoro viene definito annotazione human-in-the-loop. Ciò consente di mantenere veloce il processo di annotazione, garantendo al contempo che le etichette finali siano sufficientemente accurate e coerenti per l'addestramento di modelli affidabili.
Fig. 2. Uno sguardo all'annotazione human-in-the-loop. (Fonte)
Quando l'automazione per l'annotazione funziona e quando non funziona
L'annotazione automatizzata funziona meglio con i dati provenienti da luoghi controllati. Le immagini raccolte in fabbriche, magazzini o negozi al dettaglio hanno solitamente un'illuminazione costante e una visione chiara degli oggetti, quindi gli strumenti automatizzati possono etichettarle con precisione e aiutare i team a scalare più rapidamente con meno lavoro manuale.
I dati provenienti da luoghi meno controllati sono più complessi. Le riprese all'aperto cambiano a seconda dell'ora del giorno e delle condizioni meteorologiche, e le scene riprese dalle strade o dalle case spesso includono disordine, sfocature dovute al movimento, oggetti che si ostacolano a vicenda e molte sovrapposizioni. Oggetti piccoli, confini sottili o situazioni rare aumentano ulteriormente il margine di errore. Un modello che funziona bene con dati interni puliti potrebbe comunque avere difficoltà con immagini reali disordinate.
Ecco perché il contributo umano è ancora importante. Le persone possono intervenire quando il modello è incerto, interpretare contesti complessi e correggere gli errori prima che finiscano nel set di dati finale. L'annotazione human-in-the-loop aiuta l'automazione a rimanere ancorata alle condizioni del mondo reale e mantiene l'affidabilità dei modelli dopo l'implementazione.
In quali ambiti l'annotazione con intervento umano può fare la differenza?
Ora che abbiamo visto dove l'automazione funziona bene e dove invece presenta delle lacune, esploriamo alcune applicazioni in cui l'annotazione human-in-the-loop svolge un ruolo importante.
Rilevamento dei difetti nella produzione
Si pensi al nastro trasportatore di una fabbrica, dove ogni minuto centinaia di pezzi passano sotto una telecamera. La maggior parte dei difetti è evidente, ma ogni tanto compare una sottile incrinatura in un angolo insolito o sotto il riflesso di una luce. Un sistema automatizzato potrebbe non individuarla o classificarla come innocua texture superficiale, ma un revisore umano è in grado di individuare il difetto, correggere l'annotazione e assicurarsi che il modello apprenda la differenza.
Questo è il ruolo dell'annotazione human-in-the-loop nell'ispezione industriale. L'automazione può pre-etichettare i tipi di difetti comuni e velocizzare l'elaborazione di grandi volumi di immagini, ma gli esseri umani devono comunque verificare i risultati, restringere i confini e gestire i guasti rari che non compaiono spesso durante l'addestramento.
Veicoli autonomi e trasporti intelligenti
Allo stesso modo, i veicoli autonomi utilizzano la visione artificiale per individuare i pedoni, leggere i segnali stradali e navigare nel traffico, ma le strade reali sono imprevedibili. Ad esempio, un pedone che esce da dietro un'auto parcheggiata di notte può essere parzialmente nascosto e difficile da vedere a causa del riverbero.
Fig. 3. Un esempio di utilizzo della visione artificiale per analizzare il traffico. (Fonte)
Gli annotatori umani possono etichettare questi casi limite rari e critici per la sicurezza durante l'addestramento, in modo che i modelli imparino la risposta giusta, non solo in condizioni normali, ma anche nei momenti più importanti. Questo passaggio "human-in-the-loop" è fondamentale per insegnare ai sistemi a gestire eventi a bassa frequenza che sono difficili da catturare con la sola automazione.
Il futuro dei set di dati annotati dall'uomo
Con il progresso tecnologico, l'annotazione human-in-the-loop sta diventando sempre più collaborativa. È interessante notare che i modelli di linguaggio visivo (VLM), che apprendono sia dalle immagini che dal testo, vengono ora utilizzati per creare una prima versione delle etichette e suggerire correzioni a partire da semplici prompt.
Quindi, invece di scansionare manualmente ogni immagine per decidere cosa etichettare, un annotatore può richiedere a un VLM una frase come "etichettare tutti i pedoni, le auto e i semafori" osegment i difetti su questa parte" e ottenere una bozza di annotazioni da rivedere.
Fig. 4. I modelli multimodali di grandi dimensioni possono funzionare con annotatori umani (Fonte)
Ciò riduce il tempo necessario per l'annotazione, poiché il modello è in grado di gestire molti casi semplici in anticipo, consentendo agli esseri umani di concentrarsi sulla revisione dei risultati, sulla correzione degli esempi complessi e sul mantenimento della coerenza del set di dati. I modelli multimodali di grandi dimensioni stanno inoltre iniziando a guidare gli annotatori verso i campioni più incerti, rendendo lo sforzo umano più mirato e migliorando la qualità complessiva del set di dati.
Punti chiave
La visione artificiale aiuta le macchine a interpretare e reagire a ciò che vedono, ma funziona al meglio se integrata con l'esperienza umana. I dati annotati dall'uomo mantengono i modelli ancorati alle condizioni del mondo reale e ne migliorano l'affidabilità. Grazie alla combinazione di automazione e giudizio umano, i team possono creare sistemi di visione di grande impatto.