Glossaire

Apprentissage auto-supervisé

Découvrez comment l'apprentissage auto-supervisé exploite les données non étiquetées pour une formation efficace, transformant ainsi l'IA en vision artificielle, NLP, etc.

L'apprentissage auto-supervisé (SSL) est une technique d'apprentissage automatique qui permet aux modèles d'apprendre à partir de grandes quantités de données non étiquetées. Au lieu de s'appuyer sur des étiquettes fournies par l'homme, l'apprentissage auto-supervisé génère automatiquement des étiquettes à partir des données elles-mêmes en créant et en résolvant une "tâche prétexte". Ce processus oblige le modèle à apprendre des modèles et des caractéristiques sous-jacents significatifs des données, tels que les textures et les formes dans les images ou les structures grammaticales dans les textes. Ces caractéristiques apprises créent une base puissante, permettant au modèle d'obtenir des résultats exceptionnels sur des tâches en aval avec beaucoup moins de données étiquetées au cours de la phase de mise au point. SSL comble le fossé entre l'apprentissage entièrement supervisé, qui est gourmand en données, et l'apprentissage purement non supervisé, qui peut être moins dirigé.

Comment fonctionne l'apprentissage auto-supervisé

L'idée centrale de SSL est la tâche de prétexte, un problème auto-créé que le modèle doit résoudre. Les étiquettes de cette tâche sont dérivées directement des données d'entrée. En résolvant la tâche de prétexte, le réseau neuronal apprend des représentations précieuses, ou embeddings, qui capturent les caractéristiques essentielles des données.

Les tâches prétextes courantes dans le domaine de la vision par ordinateur sont les suivantes

  • Prédiction de la rotation d'une image : Le modèle présente une image ayant subi une rotation aléatoire (par exemple, de 0, 90, 180 ou 270 degrés) et doit prédire l'angle de rotation. Pour ce faire, il doit reconnaître l'orientation originale de l'objet.
  • Peintures d'images : Une partie de l'image est masquée ou supprimée, et le modèle doit prédire la partie manquante. Cela encourage le modèle à apprendre le contexte et la texture des images.
  • Apprentissage contrastif : On apprend au modèle à rapprocher les représentations d'images similaires (augmentées) et à éloigner les représentations d'images différentes. Des cadres comme SimCLR sont des exemples populaires de cette approche.

Ce pré-entraînement sur des données non étiquetées permet d'obtenir des poids de modèle robustes qui peuvent être utilisés comme point de départ pour des tâches plus spécifiques.

SSL vs. autres paradigmes d'apprentissage

Il est essentiel de différencier le SSL des paradigmes d'apprentissage automatique apparentés :

  • Apprentissage supervisé : Il s'appuie entièrement sur des données étiquetées, où chaque entrée est associée à une sortie correcte. SSL, à l'inverse, génère ses propres étiquettes à partir des données elles-mêmes, ce qui réduit considérablement le besoin d'étiquetage manuel des données.
  • Apprentissage non supervisé : Vise à trouver des modèles (comme le regroupement) ou à réduire la dimensionnalité des données non étiquetées sans tâches prédéfinies. Si l'apprentissage non supervisé utilise des données non étiquetées comme l'apprentissage non supervisé, il s'en distingue par la création de signaux de supervision explicites par le biais de tâches prédéfinies pour guider l'apprentissage de la représentation.
  • Apprentissage semi-supervisé : Il utilise une combinaison d'une petite quantité de données étiquetées et d'une grande quantité de données non étiquetées. Le pré-entraînement SSL peut souvent constituer une étape préliminaire à l'affinement semi-supervisé.
  • Apprentissage actif : Il s'agit de sélectionner intelligemment les points de données les plus informatifs d'un ensemble de données non étiquetées qui seront étiquetées par un humain. SSL apprend à partir de toutes les données non étiquetées sans intervention humaine dans la boucle. Ces deux méthodes peuvent être complémentaires dans un flux de travail d'IA centré sur les données.

Applications dans le monde réel

SSL a considérablement fait progresser les capacités d'intelligence artificielle (IA) dans différents domaines :

  1. Faire progresser les modèles de vision par ordinateur : Le pré-entraînement SSL permet à des modèles comme Ultralytics YOLO d'apprendre des caractéristiques visuelles robustes à partir d'énormes ensembles de données d'images non étiquetées avant d'être affinés pour des tâches telles que la détection d'objets dans les véhicules autonomes ou l'analyse d'images médicales. L'utilisation de poids pré-entraînés dérivés de SSL conduit souvent à de meilleures performances et à une convergence plus rapide lors de l'entraînement du modèle.
  2. Alimenter les grands modèles de langage (LLM) : Les modèles de base tels que GPT-4 et BERT s'appuient fortement sur des tâches de prétexte SSL (comme la modélisation du langage masqué) au cours de leur phase de préformation sur de vastes corpus de textes. Cela leur permet de comprendre la structure du langage, la grammaire et le contexte, et d'alimenter des applications allant des chatbots sophistiqués à la traduction automatique en passant par le résumé de texte.

SSL réduit considérablement la dépendance à l'égard d'ensembles de données étiquetés coûteux, démocratisant ainsi le développement de puissants modèles d'IA. Des outils comme PyTorch et TensorFlow, ainsi que des plateformes comme Ultralytics HUB, fournissent des environnements permettant d'exploiter les techniques SSL pour construire et déployer des solutions d'IA de pointe. Vous trouverez les dernières recherches sur SSL lors de conférences sur l'IA telles que NeurIPS et ICML.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers