Apprendimento semi-supervisionato
Scoprite come l'apprendimento semi-supervisionato combina dati etichettati e non etichettati per migliorare i modelli di intelligenza artificiale, ridurre i costi di etichettatura e aumentare la precisione.
L'apprendimento semi-supervisionato (SSL) è una tecnica di apprendimento automatico (ML) che colma il divario tra l'apprendimento supervisionato e l'apprendimento non supervisionato. Sfrutta una piccola quantità di dati etichettati insieme a una grande quantità di dati non etichettati per migliorare l'accuratezza dell'apprendimento. In molti scenari reali, l'acquisizione di dati non etichettati è poco costosa, ma il processo di etichettatura dei dati è costoso e richiede molto tempo. SSL affronta questa sfida consentendo ai modelli di apprendere dal vasto pool di esempi non etichettati, guidati dalla struttura e dalle informazioni fornite dall'insieme etichettato più piccolo. Questo approccio è particolarmente potente nel deep learning (DL), dove i modelli richiedono enormi insiemi di dati per ottenere prestazioni elevate.
Come funziona l'apprendimento semi-supervisionato
L'idea alla base di SSL è quella di utilizzare i dati etichettati per costruire un modello iniziale e poi usare questo modello per fare previsioni sui dati non etichettati. Le previsioni più affidabili del modello vengono quindi trattate come "pseudo-etichette" e aggiunte al set di addestramento. Il modello viene quindi riaddestrato su questa combinazione di etichette originali e pseudo-etichette ad alta affidabilità. Questo processo iterativo consente al modello di apprendere la struttura sottostante dell'intero set di dati, non solo la piccola parte etichettata.
Le tecniche SSL più comuni includono:
- Regolarizzazione della coerenza: Questo metodo applica l'idea che le previsioni del modello debbano rimanere coerenti anche quando i dati di ingresso sono leggermente perturbati. Ad esempio, un'immagine con un piccolo aumento dei dati dovrebbe produrre la stessa classificazione.
- Modelli generativi: Tecniche come le reti avversarie generative (GAN) possono imparare a generare dati che assomigliano alla vera distribuzione dei dati, aiutando a definire meglio i confini decisionali tra le classi.
- Metodi basati sui grafi: Questi metodi rappresentano i punti dati come nodi di un grafo e propagano le etichette dai nodi etichettati a quelli non etichettati in base alla loro vicinanza o somiglianza. Una panoramica tecnica può essere trovata in studi accademici.
Applicazioni del mondo reale
L'SSL è molto efficace nei domini in cui l'etichettatura è un collo di bottiglia. Due esempi importanti sono:
- Analisi delle immagini mediche: L'etichettatura di scansioni mediche come risonanze magnetiche o tomografie per il rilevamento di tumori richiede radiologi esperti ed è molto costosa. Con SSL, un modello può essere addestrato su poche centinaia di scansioni etichettate e poi perfezionato utilizzando migliaia di scansioni non etichettate provenienti dagli archivi ospedalieri. Ciò consente di sviluppare modelli robusti di classificazione e segmentazione delle immagini con un impegno manuale notevolmente inferiore.
- Classificazione dei contenuti web e dei documenti: Classificare manualmente miliardi di pagine web, articoli di notizie o recensioni di clienti è poco pratico. SSL può utilizzare un piccolo insieme di documenti classificati manualmente per addestrare un classificatore di testo iniziale. Il modello classifica poi l'enorme corpus di documenti non etichettati, utilizzando le proprie previsioni per migliorare nel tempo per compiti come la sentiment analysis o la categorizzazione degli argomenti.
Confronto con altri paradigmi di apprendimento
È importante distinguere l'SSL dai concetti di Intelligenza Artificiale (AI) correlati:
- Apprendimento auto-supervisionato (SSL): Sebbene condivida l'acronimo, l'apprendimento auto-supervisionato è diverso. Si tratta di un tipo di apprendimento non supervisionato in cui le etichette sono generate dai dati stessi attraverso compiti pretestuosi (ad esempio, la previsione di una parola mascherata in una frase). Non utilizza dati etichettati manualmente, mentre l'apprendimento semi-supervisionato richiede un piccolo set di dati esplicitamente etichettati per guidare il processo di formazione del modello.
- Apprendimento attivo: Anche questa tecnica mira a ridurre i costi di etichettatura. Tuttavia, invece di utilizzare tutti i dati non etichettati, un modello di apprendimento attivo interroga intelligentemente un annotatore umano per etichettare i punti dati più informativi. L'SSL, al contrario, utilizza tipicamente i dati non etichettati senza interazione umana diretta durante l'addestramento.
- Apprendimento per trasferimento: Si tratta di utilizzare un modello pre-addestrato su un set di dati di grandi dimensioni (come ImageNet) e poi di metterlo a punto su un set di dati più piccolo, specifico per il compito. Sebbene entrambi sfruttino le conoscenze esistenti, l'SSL apprende dai dati non etichettati dell'attività target stessa, mentre l'apprendimento per trasferimento sfrutta le conoscenze di un'attività diversa (anche se spesso correlata).
Strumenti e formazione
Molti moderni framework di Deep Learning (DL), tra cui PyTorch(sito ufficiale di PyTorch) e TensorFlow(sito ufficiale di TensorFlow), offrono funzionalità o possono essere adattati per implementare algoritmi SSL. Librerie come Scikit-learn forniscono alcuni metodi SSL. Piattaforme come Ultralytics HUB semplificano il processo facilitando la gestione di insiemi di dati che possono contenere miscele di dati etichettati e non etichettati, semplificando l'addestramento e la distribuzione di modelli progettati per sfruttare tali strutture di dati. La ricerca in SSL continua ad evolversi e i contributi vengono spesso presentati alle principali conferenze sull'intelligenza artificiale, come NeurIPS e ICML.