Glossaire

Apprentissage contrastif

Découvrez la puissance de l'apprentissage contrastif, une technique auto-supervisée pour des représentations de données robustes avec un minimum de données étiquetées.

L'apprentissage contrastif est une technique d'apprentissage automatique qui entraîne un modèle à distinguer les choses similaires des choses dissemblables. Au lieu d'apprendre à prédire une étiquette à partir d'un seul point de données, le modèle apprend en comparant des paires d'exemples. L'idée principale est d'enseigner au modèle à rapprocher les représentations des paires similaires (positives) dans un espace de caractéristiques, tout en éloignant les représentations des paires dissemblables (négatives). Cette approche est très efficace pour apprendre des représentations significatives à partir de grands ensembles de données non étiquetées, ce qui en fait une méthode puissante dans la catégorie plus large de l'apprentissage auto-supervisé.

Comment ça marche ?

Le processus d'apprentissage contrastif s'articule autour de la création d'échantillons positifs et négatifs. Pour un point de données donné, appelé « ancre », le modèle est entraîné comme suit :

Paires positives : Une paire positive est constituée de l'ancre et d'un point de données qui lui est sémantiquement similaire. En vision par ordinateur (CV), un échantillon positif est souvent créé en appliquant une forte augmentation de données (comme un recadrage aléatoire, une rotation ou une gigue de couleur) à l'image d'ancre. L'ancre et la version augmentée sont considérées comme une paire positive car elles proviennent de la même image source.
Paires négatives : Une paire négative est constituée de l’ancre et d’un point de données dissemblable. Dans une configuration typique, toutes les autres images d’un lot d’entraînement sont traitées comme des échantillons négatifs.
Objectif de l'entraînement : Le modèle, souvent un réseau neuronal convolutif (CNN), traite ces paires et est optimisé à l'aide d'une fonction de perte contrastive, telle que InfoNCE ou Triplet Loss. Cette fonction de perte pénalise le modèle lorsque les paires négatives sont trop proches ou que les paires positives sont trop éloignées dans l'espace d'embedding. Des articles de recherche marquants comme SimCLR et MoCo ont considérablement fait progresser ces techniques.

Applications concrètes

L'apprentissage contrastif excelle dans le pré-entraînement des modèles pour apprendre des représentations de caractéristiques puissantes qui peuvent ensuite être affinées pour des tâches spécifiques.

Recherche visuelle et récupération d'images : Dans le commerce électronique, un utilisateur peut vouloir trouver des produits visuellement similaires à une image qu'il télécharge. Un modèle pré-entraîné avec l'apprentissage contrastif peut mapper les images à un espace vectoriel où les éléments similaires sont regroupés. Cela permet une recherche sémantique et des systèmes de recommandation efficaces, qui sont essentiels pour améliorer l'expérience client dans l'IA dans le commerce de détail.
Pré-entraînement pour les tâches en aval : Les modèles comme Ultralytics YOLO11 peuvent bénéficier d'un pré-entraînement sur de grands ensembles de données non étiquetés en utilisant des méthodes contrastives. Cela aide le modèle à apprendre des caractéristiques visuelles robustes avant d'être ajusté finement sur un ensemble de données étiquetées plus petit pour des tâches comme la détection d'objets ou la segmentation d'instances. Cette approche conduit souvent à de meilleures performances et à une convergence plus rapide, en particulier lorsque les données étiquetées sont rares, un concept connu sous le nom d'apprentissage avec peu d'exemples.