Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Apprentissage auto-supervisé

Découvrez comment l'apprentissage auto-supervisé exploite les données non étiquetées pour un entraînement efficace, transformant l'IA dans la vision par ordinateur, le NLP, et plus encore.

L'apprentissage auto-supervisé (SSL) est une approche transformatrice dans le domaine de l'apprentissage auto-supervisé. l'intelligence artificielle (IA) qui permet aux systèmes d'apprendre à partir de données non étiquetées sans nécessiter d'annotation humaine explicite. Contrairement à l'apprentissage traditionnel, l apprentissage superviséqui dépend fortement de vastes ensembles de données d'exemples étiquetés manuellement, SSL tire ses propres signaux de supervision directement à partir des données elles-mêmes. En créant et en résolvant des "tâches prétextes" - telles que compléter les mots manquants dans une phrase ou prédire la rotation d'une image - le modèle apprend à comprendre la nature des données. ou la prédiction de la rotation d'une image, le modèle apprend à comprendre la structure, le contexte et les caractéristiques sous-jacentes de l'entrée. caractéristiques de l'entrée. Cette capacité est cruciale pour le développement d'outils d'analyse robustes. modèles de base robustes qui peuvent être être adaptés à un large éventail de tâches en aval avec un minimum de formation supplémentaire.

Fonctionnement de l'apprentissage auto-supervisé

Le mécanisme de base de SSL consiste à retirer une partie des données disponibles et à confier à l'unité de traitement des données le soin de les traiter. réseau neuronal (RN) de de les reconstruire. Ce processus oblige le modèle à apprendre des représentations de haute qualité, ou encastrementsqui capturent le sens sémantique. Il existe deux catégories principales de tâches de pré-texte utilisées dans la recherche et l'industrie :

  • Méthodes génératives : Le modèle répare les données corrompues ou masquées. Par exemple, dans les traitement du langage naturel (NLP)des modèles comme BERT masquent des mots spécifiques et tentent de les prédire en fonction du contexte environnant. Dans le domaine de la vision, des techniques comme les Autoencodeurs masqués (MAE) suppriment d'une image et reconstruisent les pixels manquants.
  • Apprentissage contrastif : Cette approche apprend au modèle à distinguer les points de données similaires et dissemblables. similaires. Des algorithmes tels que SimCLR appliquent l'augmentation des données (recadrage, (recadrage, sautillement des couleurs) à une image et entraîne le réseau à reconnaître que ces versions modifiées représentent le même objet, tout en repoussant les représentations d'images différentes. même objet, tout en repoussant les représentations d'images différentes.

Applications concrètes

L'apprentissage auto-supervisé a révolutionné les industries en libérant la valeur d'énormes ensembles de données non traitées. Voici deux deux exemples concrets de son impact :

  1. Analyse d'images médicales: L'obtention de données médicales étiquetées est coûteuse et nécessite des radiologues experts. SSL permet aux modèles de s'entraîner au préalable sur des milliers de radiographies ou d'IRM non étiquetées pour apprendre les caractéristiques anatomiques générales. sur des milliers de radiographies ou d'IRM non étiquetées afin d'apprendre les caractéristiques anatomiques générales. Ce pré-entraînement performances lorsque le modèle est ensuite affiné sur un petit ensemble de données étiquetées pour des tâches spécifiques telles que l'imagerie médicale. la détection de tumeursCe modèle permet d'améliorer la précision du diagnostic avec une supervision limitée.
  2. Véhicules autonomes: Les voitures autonomes génèrent quotidiennement des téraoctets de données vidéo. Il est impossible d'étiqueter chaque image. SSL permet à ces systèmes systèmes d'apprendre la dynamique temporelle et l'estimation de la profondeur à partir de flux vidéo en prédisant les images futures ou en évaluant la cohérence des objets dans le temps. Cela permet d'améliorer suivi des objets d'objets et la compréhension de l'environnement sans intervention humaine constante.

Distinction entre SSL et les concepts apparentés

Pour bien comprendre le SSL, il est utile de le différencier des paradigmes d'apprentissage similaires :

  • Vs. Apprentissage non supervisé : Les deux utilisent des données non étiquetées, l'apprentissage non supervisé se concentre généralement sur la recherche de modèles cachés, tels que le regroupement de clients ou la réduction de la dimensionnalité. L'APPRENTISSAGE NON SUPERVISÉ vise spécifiquement à apprendre des représentations transférables à d'autres tâches, se comportant en fait comme l'apprentissage supervisé, mais avec des étiquettes auto-générées. l'apprentissage supervisé, mais avec des étiquettes auto-générées.
  • Vs. Apprentissage semi-supervisé : Apprentissage semi-supervisé combine une petite quantité de données étiquetées avec une grande quantité de données non étiquetées au cours de la même phase d'apprentissage. En revanche, l'apprentissage semi-supervisé est souvent utilisé comme "pré En revanche, l'apprentissage semi-supervisé est souvent utilisé comme une étape de "préformation" uniquement sur des données non étiquetées, suivie d'une étape de "préformation" sur des données non étiquetées. réglage fin sur des données étiquetées.

Exploiter les modèles pré-entraînés

Dans la pratique, la plupart des développeurs utilisent le protocole SSL en tirant parti de l'option poids des modèles modèles qui ont déjà été pré-entraînés sur d'importants ensembles de données. Par exemple, le modèle Ultralytics YOLO11 bénéficie de capacités d'extraction de caractéristiques profondes, affinées par un entraînement intensif. Bien que YOLO soit supervisé, le concept d'apprentissage par transfert d'apprentissage par transfert - prendre un modèle qui comprend les caractéristiques visuelles et l'appliquer à une nouvelle tâche - est le principal avantage en aval de la recherche SSL. de la recherche SSL.

L'exemple Python suivant montre comment charger un modèle pré-entraîné et l'affiner sur un ensemble de données spécifique. Ce flux de travail s'appuie sur les représentations des caractéristiques apprises lors de la phase initiale de pré-entraînement.

from ultralytics import YOLO

# Load a pre-trained YOLO11 model (weights act as the learned representation)
model = YOLO("yolo11n.pt")

# Fine-tune the model on a specific task, leveraging its existing visual knowledge
# This transfer learning process is highly efficient due to robust pre-training
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

# Perform inference to verify the model detects objects correctly
model.predict("https://ultralytics.com/images/bus.jpg", save=True)

L'avenir de l'apprentissage auto-supervisé

Alors que les chercheurs s'efforcent de mettre au point des modèles qui apprennent davantage comme les humains, par l'observation plutôt que par la mémorisation par cœur, le logiciel SSL reste à la pointe de l'innovation. Les principaux laboratoires de recherche, dont Google DeepMind et Meta AIcontinuent de publier des avancées qui réduisent la dépendance à l'égard des données étiquetées. Chez Ultralytics, nous intégrons ces avancées dans notre R&D pour YOLO26dans le but de fournir des modèles plus rapides, plus petits et plus précis, capables de se généraliser de manière efficace dans divers domaines. vision par ordinateur (VA) (vision par ordinateur). Des outils comme PyTorch et la future plateforme Ultralytics facilitent plus que jamais le déploiement de ces capacités avancées dans des environnements de production réels.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant