Apprendimento Auto-Supervisionato
Scopri come l'apprendimento auto-supervisionato sfrutta i dati non etichettati per un addestramento efficiente, trasformando l'IA nella computer vision, nell'elaborazione del linguaggio naturale (NLP) e altro ancora.
L'Apprendimento Auto-Supervisionato (SSL) è una tecnica di machine learning che consente ai modelli di apprendere da grandi quantità di dati non etichettati. Invece di fare affidamento su etichette fornite da persone, l'SSL genera automaticamente etichette dai dati stessi creando e risolvendo un "task pretestuale". Questo processo costringe il modello ad apprendere schemi e caratteristiche sottostanti significativi dei dati, come texture e forme nelle immagini o strutture grammaticali nel testo. Queste caratteristiche apprese creano una base solida, consentendo al modello di ottenere prestazioni eccezionali in task a valle con molti meno dati etichettati durante la fase di fine-tuning. L'SSL colma il divario tra l'apprendimento supervisionato completo, che è avido di dati, e l'apprendimento non supervisionato puro, che può essere meno diretto.
Come funziona l'apprendimento auto-supervisionato
L'idea alla base di SSL è l'attività pretesto: un problema auto-creato che il modello deve risolvere. Le etichette per questa attività derivano direttamente dai dati di input. Risolvendo l'attività pretesto, la rete neurale apprende rappresentazioni preziose, o embedding, che catturano le caratteristiche essenziali dei dati.
Le attività pretesto comuni nella computer vision includono:
- Previsione della rotazione dell'immagine: Al modello viene mostrata un'immagine che è stata ruotata casualmente (ad esempio, di 0, 90, 180 o 270 gradi) e deve prevedere l'angolo di rotazione. Per fare ciò correttamente, deve riconoscere l'orientamento originale dell'oggetto.
- Image Inpainting: Una porzione di un'immagine viene mascherata o rimossa e il modello deve prevedere la patch mancante. Questo incoraggia il modello a conoscere il contesto e la trama delle immagini.
- Contrastive Learning: Al modello viene insegnato a ravvicinare le rappresentazioni di immagini simili (aumentate) e ad allontanare le rappresentazioni di immagini diverse. Framework come SimCLR sono esempi popolari di questo approccio.
Questo pre-addestramento su dati non etichettati si traduce in pesi del modello robusti che possono essere utilizzati come punto di partenza per attività più specifiche.
SSL vs. Altri paradigmi di apprendimento
È fondamentale distinguere l'SSL dai paradigmi di machine learning correlati:
- Apprendimento Supervisionato: Si basa interamente su dati etichettati, in cui ogni input è abbinato a un output corretto. L'SSL, al contrario, genera le proprie etichette dai dati stessi, riducendo significativamente la necessità di etichettatura manuale dei dati.
- Apprendimento non supervisionato: Mira a trovare schemi (come il clustering) o a ridurre la dimensionalità in dati non etichettati senza task pretesto predefiniti. Mentre l'SSL utilizza dati non etichettati come l'apprendimento non supervisionato, si differenzia creando segnali di supervisione espliciti attraverso task pretesto per guidare l'apprendimento della rappresentazione.
- Apprendimento semi-supervisionato: Utilizza una combinazione di una piccola quantità di dati etichettati e una grande quantità di dati non etichettati. Il pre-training SSL può spesso essere un passaggio preliminare prima del fine-tuning semi-supervisionato.
- Active Learning: Si concentra sulla selezione intelligente dei punti dati più informativi da un pool non etichettato da etichettare da un essere umano. L'SSL apprende da tutti i dati non etichettati senza intervento umano nel ciclo. Questi due metodi possono essere complementari in un flusso di lavoro di IA incentrato sui dati.
Applicazioni nel mondo reale
L'SSL ha notevolmente fatto progredire le capacità di Intelligenza Artificiale (AI) in vari domini:
- Promuovere i modelli di computer vision: Il pre-training SSL consente a modelli come Ultralytics YOLO di apprendere robuste caratteristiche visive da enormi set di dati di immagini non etichettate prima di essere messi a punto per attività come il rilevamento di oggetti in veicoli autonomi o l'analisi di immagini mediche. L'utilizzo di pesi pre-addestrati derivati da SSL spesso porta a prestazioni migliori e a una convergenza più rapida durante l'addestramento del modello.
- Alimentazione di modelli linguistici di grandi dimensioni (LLM): I modelli di base come GPT-4 e BERT si basano fortemente su attività di pretesto SSL (come il masked language modeling) durante la loro fase di pre-addestramento su vasti corpora di testo. Ciò consente loro di comprendere la struttura, la grammatica e il contesto del linguaggio, alimentando applicazioni che vanno dai sofisticati chatbot e dalla traduzione automatica alla sintesi del testo.
L'SSL riduce significativamente la dipendenza da costosi dataset etichettati, democratizzando lo sviluppo di potenti modelli di IA. Strumenti come PyTorch e TensorFlow, insieme a piattaforme come Ultralytics HUB, forniscono ambienti per sfruttare le tecniche SSL per la costruzione e la distribuzione di soluzioni AI all'avanguardia. Puoi trovare le ultime ricerche sull'SSL nelle principali conferenze sull'IA come NeurIPS e ICML.