Connectez-vous à YOLO Vision 2025 !
25 septembre 2025
10:00 — 18:00, heure d'été britannique
Événement hybride
Yolo Vision 2024
Glossaire

Apprentissage auto-supervisé

Découvrez comment l'apprentissage auto-supervisé exploite les données non étiquetées pour un entraînement efficace, transformant l'IA dans la vision par ordinateur, le NLP, et plus encore.

L'Apprentissage Auto-Supervisé (SSL) est une technique d'apprentissage automatique qui permet aux modèles d'apprendre à partir de vastes quantités de données non étiquetées. Au lieu de s'appuyer sur des étiquettes fournies par l'homme, le SSL génère automatiquement des étiquettes à partir des données elles-mêmes en créant et en résolvant une "tâche prétexte". Ce processus force le modèle à apprendre des motifs et des caractéristiques sous-jacentes significatives des données, telles que les textures et les formes dans les images ou les structures grammaticales dans le texte. Ces caractéristiques apprises créent une base solide, permettant au modèle de fonctionner exceptionnellement bien sur les tâches en aval avec beaucoup moins de données étiquetées pendant la phase de fine-tuning. Le SSL comble le fossé entre l'apprentissage supervisé complet, qui est gourmand en données, et l'apprentissage non supervisé pur, qui peut être moins dirigé.

Fonctionnement de l'apprentissage auto-supervisé

L'idée centrale de SSL est la tâche prétexte—un problème auto-créé que le modèle doit résoudre. Les étiquettes de cette tâche sont dérivées directement des données d'entrée. En résolvant la tâche prétexte, le réseau neuronal apprend des représentations précieuses, ou embeddings, qui capturent les caractéristiques essentielles des données.

Les tâches de prétexte courantes en vision par ordinateur comprennent :

  • Prédiction de la rotation d'image : Le modèle reçoit une image qui a été tournée de manière aléatoire (par exemple, de 0, 90, 180 ou 270 degrés) et doit prédire l'angle de rotation. Pour ce faire correctement, il doit reconnaître l'orientation originale de l'objet.
  • Retouche d'image : Une portion d'une image est masquée ou supprimée, et le modèle doit prédire la zone manquante. Cela encourage le modèle à apprendre le contexte et la texture des images.
  • Apprentissage contrastif : Le modèle est entraîné à rapprocher les représentations d'images similaires (augmentées) et à éloigner les représentations d'images différentes. Les frameworks comme SimCLR sont des exemples populaires de cette approche.

Ce pré-entraînement sur des données non étiquetées se traduit par des poids de modèle robustes qui peuvent être utilisés comme point de départ pour des tâches plus spécifiques.

SSL vs. autres paradigmes d'apprentissage

Il est essentiel de différencier l'apprentissage auto-supervisé (SSL) des paradigmes d'apprentissage automatique connexes :

  • Apprentissage supervisé : Repose entièrement sur des données étiquetées, où chaque entrée est associée à une sortie correcte. L'apprentissage auto-supervisé, à l'inverse, génère ses propres étiquettes à partir des données elles-mêmes, réduisant considérablement le besoin d'étiquetage manuel des données.
  • Apprentissage non supervisé : Vise à trouver des modèles (comme le clustering) ou à réduire la dimensionnalité dans des données non étiquetées sans tâches prétextes prédéfinies. Bien que l'apprentissage auto-supervisé utilise des données non étiquetées comme l'apprentissage non supervisé, il diffère en créant des signaux de supervision explicites par le biais de tâches prétextes pour guider l'apprentissage de la représentation.
  • Apprentissage semi-supervisé : Utilise une combinaison d'une petite quantité de données étiquetées et d'une grande quantité de données non étiquetées. Le pré-entraînement SSL peut souvent être une étape préliminaire avant l'affinage semi-supervisé.
  • Apprentissage actif : Se concentre sur la sélection intelligente des points de données les plus informatifs d'un pool non étiqueté pour qu'ils soient étiquetés par un humain. L'apprentissage auto-supervisé (SSL) apprend de toutes les données non étiquetées sans intervention humaine dans la boucle. Ces deux méthodes peuvent être complémentaires dans un flux de travail d'IA centré sur les données.

Applications concrètes

SSL a considérablement fait progresser les capacités de l'intelligence artificielle (IA) dans divers domaines :

  1. Faire progresser les modèles de vision par ordinateur : Le pré-entraînement SSL permet à des modèles tels que Ultralytics YOLO d'apprendre des caractéristiques visuelles robustes à partir d'ensembles de données d'images non étiquetées massifs avant d'être affinés pour des tâches telles que la détection d'objets dans les véhicules autonomes ou l'analyse d'images médicales. L'utilisation de poids pré-entraînés dérivés du SSL conduit souvent à de meilleures performances et à une convergence plus rapide pendant l'entraînement du modèle.
  2. Alimentation des grands modèles linguistiques (LLM) : Les modèles de fondation tels que GPT-4 et BERT s’appuient fortement sur les tâches prétextuelles SSL (comme la modélisation linguistique masquée) pendant leur phase de pré-formation sur de vastes corpus de texte. Cela leur permet de comprendre la structure, la grammaire et le contexte du langage, alimentant des applications allant des robots conversationnels sophistiqués et de la traduction automatique à la synthèse de texte.

L'apprentissage auto-supervisé (SSL) réduit considérablement la dépendance aux ensembles de données étiquetées coûteux, démocratisant ainsi le développement de modèles d'IA puissants. Des outils tels que PyTorch et TensorFlow, ainsi que des plateformes comme Ultralytics HUB, fournissent des environnements pour exploiter les techniques de SSL afin de créer et de déployer des solutions d'IA de pointe. Vous pouvez trouver les dernières recherches sur le SSL lors de grandes conférences sur l'IA comme NeurIPS et ICML.

Rejoignez la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant
Lien copié dans le presse-papiers