Glossario

Apprendimento auto-supervisionato

Scopri come l'apprendimento auto-supervisionato sfrutta i dati non etichettati per un addestramento efficiente, trasformando l'IA in computer vision, NLP e altro ancora.

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

L'apprendimento auto-supervisionato (SSL) è un approccio all'apprendimento automatico (ML) che consente ai modelli di imparare da grandi quantità di dati non etichettati. A differenza dell'apprendimento supervisionato, che dipende in larga misura da dati meticolosamente etichettati, l'SSL crea ingegnosamente i propri segnali di supervisione direttamente dai dati di input. Questo lo rende eccezionalmente prezioso in campi come la computer vision (CV) e l'elaborazione del linguaggio naturale (NLP), dove i dati non etichettati sono abbondanti, ma il costo e lo sforzo dell'etichettatura manuale(annotazione dei dati) possono essere proibitivi.

Come funziona l'apprendimento auto-supervisionato

Il meccanismo alla base di SSL prevede la progettazione di un "compito pretestuoso". Si tratta di un compito ausiliario autogenerato in cui il modello deve prevedere alcune proprietà dei dati che sono state intenzionalmente nascoste o alterate. Risolvendo questo compito pretestuoso, il modello è costretto ad apprendere strutture e rappresentazioni sottostanti significative(embeddings) dei dati senza etichette fornite dall'uomo. Questa fase iniziale di addestramento viene comunemente definita pre-addestramento.

Ad esempio, nella visione computerizzata, un compito pretestuoso potrebbe comportare:

  • Prevedere la posizione relativa di patch di immagini mischiate.
  • Colorare un'immagine in scala di grigi.
  • Riempire le parti mancanti di un'immagine (inpainting).
  • L'apprendimento di rappresentazioni attraverso il contrasto di diverse viste aumentate della stessa immagine, una tecnica utilizzata nei metodi di apprendimento contrastivo come SimCLR e MoCo.

In NLP, un compito pretestuoso ben noto è la modellazione del linguaggio mascherato, notoriamente utilizzata da modelli come BERT. In questo caso, il modello impara a prevedere le parole che sono state mascherate (nascoste) in modo casuale all'interno delle frasi.

Dopo un pre-addestramento su grandi insiemi di dati non etichettati, il modello acquisisce una ricca rappresentazione di caratteristiche. Questo modello pre-addestrato può poi essere adattato per compiti specifici a valle, come il rilevamento di oggetti, la classificazione di immagini o l'analisi del sentimento, attraversoun processo chiamato " fine-tuning". Il fine-tuning richiede in genere una quantità di dati etichettati molto inferiore rispetto all'addestramento di un modello da zero, rendendo la SSL un fattore chiave per un apprendimento di trasferimento efficace.

SSL contro altri paradigmi di apprendimento

È fondamentale differenziare l'SSL dai paradigmi di ML correlati:

  • Apprendimento supervisionato: Si basa interamente su dati etichettati, in cui ogni input è abbinato a un output corretto. SSL, al contrario, genera le sue etichette dai dati stessi.
  • Apprendimento non supervisionato: Mira a trovare modelli (come il clustering) o a ridurre la dimensionalità di dati non etichettati senza compiti predefiniti. Sebbene l'SSL utilizzi dati non etichettati come l'apprendimento non supervisionato, si differenzia per la creazione di segnali di supervisione espliciti attraverso compiti predefiniti per guidare l'apprendimento della rappresentazione.
  • Apprendimento semi-supervisionato: Utilizza una combinazione di una piccola quantità di dati etichettati e una grande quantità di dati non etichettati. Il pre-training SSL può spesso essere un passo preliminare prima della messa a punto semi-supervisionata.

Applicazioni del mondo reale

SSL ha capacità di intelligenza artificiale (AI) notevolmente avanzate:

  1. Modelli di computer vision avanzati: Il pre-training SSL permette a modelli come Ultralytics YOLO11 di apprendere solide caratteristiche visive da enormi set di dati di immagini non etichettate prima di essere messi a punto per compiti come il rilevamento di oggetti in veicoli autonomi o l'analisi di immagini mediche. L'uso di pesi pre-addestrati derivati da SSL spesso porta a prestazioni migliori e a una convergenza più rapida durante l'addestramento del modello.
  2. Alimentazione dei modelli linguistici di grandi dimensioni (LLM): I modelli di base come il GPT-4 e il BERT si basano molto su compiti di pre-testualità SSL (come la modellazione linguistica mascherata) durante la fase di pre-addestramento su vasti corpora di testo. Questo permette loro di comprendere la struttura del linguaggio, la grammatica e il contesto, alimentando applicazioni che vanno da sofisticati chatbot e traduzioni automatiche alla sintesi di testi.

SSL riduce in modo significativo la dipendenza da costosi set di dati etichettati, democratizzando lo sviluppo di potenti modelli di intelligenza artificiale. Strumenti come PyTorch e TensorFlowinsieme a piattaforme come Ultralytics HUB, forniscono ambienti per sfruttare le tecniche SSL per costruire e distribuire soluzioni di IA all'avanguardia.

Leggi tutto