Glossario

Apprendimento contrastivo

Scopri la potenza dell'apprendimento contrastivo, una tecnica auto-supervisionata per rappresentazioni robuste dei dati con dati etichettati minimi.

L'apprendimento contrastivo è una tecnica di machine learning che addestra un modello a distinguere tra cose simili e dissimili. Invece di imparare a prevedere un'etichetta da un singolo punto dati, il modello impara confrontando coppie di esempi. L'idea centrale è quella di insegnare al modello ad avvicinare le rappresentazioni di coppie simili (positive) in uno spazio di caratteristiche, allontanando al contempo le rappresentazioni di coppie dissimili (negative). Questo approccio è molto efficace per apprendere rappresentazioni significative da grandi set di dati non etichettati, rendendolo un metodo potente all'interno della più ampia categoria di apprendimento auto-supervisionato.

Come Funziona?

Il processo di apprendimento contrastivo ruota attorno alla creazione di campioni positivi e negativi. Per un determinato punto dati, chiamato "anchor", il modello viene addestrato come segue:

Coppie positive: Una coppia positiva è costituita dall'ancora e da un punto dati semanticamente simile ad essa. Nella computer vision (CV), un campione positivo viene spesso creato applicando un forte data augmentation (come ritaglio casuale, rotazione o variazione del colore) all'immagine di ancoraggio. Sia l'ancora che la versione aumentata sono considerate una coppia positiva perché provengono dalla stessa immagine sorgente.
Coppie Negative: Una coppia negativa è costituita dall'anchor e da un punto dati che non è simile. In una configurazione tipica, tutte le altre immagini all'interno di un batch di training vengono trattate come campioni negativi.
Obiettivo dell'addestramento: Il modello, spesso una rete neurale convoluzionale (CNN), elabora queste coppie e viene ottimizzato utilizzando una funzione di perdita contrastiva, come InfoNCE o Triplet Loss. Questa funzione di perdita penalizza il modello quando le coppie negative sono troppo vicine o le coppie positive sono troppo distanti nello spazio di embedding. Documenti di ricerca fondamentali come SimCLR e MoCo hanno fatto progredire significativamente queste tecniche.

Applicazioni nel mondo reale

L'apprendimento contrastivo eccelle nel pre-addestramento di modelli per apprendere potenti rappresentazioni di caratteristiche che possono poi essere ottimizzate per compiti specifici.

Ricerca visiva e recupero di immagini: Nell'e-commerce, un utente potrebbe voler trovare prodotti visivamente simili a un'immagine che carica. Un modello pre-addestrato con apprendimento contrastivo può mappare le immagini a uno spazio vettoriale in cui gli elementi simili sono raggruppati insieme. Ciò consente una ricerca semantica efficiente e sistemi di raccomandazione, che sono fondamentali per migliorare l'esperienza del cliente nell'IA nel retail.
Pre-training per attività a valle: Modelli come Ultralytics YOLO11 possono beneficiare del pre-training su dataset di grandi dimensioni e non etichettati utilizzando metodi contrastivi. Questo aiuta il modello a imparare caratteristiche visive robuste prima di essere sottoposto a fine-tuning su un dataset etichettato più piccolo per attività come il rilevamento di oggetti o la segmentazione di istanze. Questo approccio porta spesso a prestazioni migliori e a una convergenza più rapida, specialmente quando i dati etichettati sono scarsi, un concetto noto come few-shot learning.