Glossaire

Apprentissage non supervisé

Découvre comment l'apprentissage non supervisé utilise le regroupement, la réduction de la dimensionnalité et la détection des anomalies pour découvrir des modèles cachés dans les données.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

L'apprentissage non supervisé est une catégorie de l'apprentissage machine (ML) dans laquelle les algorithmes sont formés sur des données qui n'ont pas d'étiquettes ou de catégories prédéfinies. Contrairement à l'apprentissage supervisé, l'objectif n'est pas de prédire une sortie connue en fonction des caractéristiques d'entrée. Au lieu de cela, le système essaie d'apprendre par lui-même la structure sous-jacente, les modèles et les relations au sein des données. C'est comme si tu donnais à un ordinateur une grande collection d'objets non triés et que tu lui demandais de trouver des regroupements naturels ou des caractéristiques intéressantes sans lui dire quoi chercher. Cette approche est cruciale pour l'exploration d'ensembles de données complexes et la découverte d'informations qui ne seraient pas apparentes au préalable, et constitue un élément clé de l'intelligence artificielle (IA) moderne.

Comment fonctionne l'apprentissage non supervisé

Dans l'apprentissage non supervisé, l'algorithme examine les points de données d'entrée et tente d'identifier les similitudes, les différences ou les corrélations entre eux. Il n'y a pas de "bonnes" réponses ou de résultats cibles fournis pendant la phase de formation. Les algorithmes doivent déduire la structure inhérente présente dans les données. Il s'agit souvent d'organiser les points de données en groupes(regroupement), de réduire la complexité des données(réduction de la dimensionnalité) ou d'identifier des points de données inhabituels(détection des anomalies). Le succès des méthodes non supervisées repose souvent sur la capacité de l'algorithme à capturer les propriétés intrinsèques de l'ensemble de données sans orientation externe.

Techniques et concepts clés

Plusieurs techniques relèvent de l'apprentissage non supervisé :

  • Regroupement: Il s'agit de regrouper des points de données similaires en fonction de certaines caractéristiques. L'objectif est de créer des groupes où les éléments d'un groupe sont très similaires et les éléments de groupes différents sont dissemblables. Les algorithmes courants comprennent le regroupement K-Means et DBSCAN. Cette méthode est utile pour des tâches telles que la segmentation de la clientèle ou l'organisation de grandes collections de documents.
  • Réduction de la dimensionnalité: Ces techniques visent à réduire le nombre de variables d'entrée (caractéristiques) dans un ensemble de données tout en préservant les informations essentielles. Cela simplifie les modèles, réduit les coûts de calcul et peut aider à la visualisation des données. Les méthodes les plus courantes sont l'analyse en composantes principales (ACP) et le t-Distributed Stochastic Neighbor Embedding (t-SNE).
  • Apprentissage des règles d'association : Cela permet de découvrir des relations intéressantes ou des règles d'association entre les variables dans de grands ensembles de données. Un exemple classique est l'analyse du panier de la ménagère, qui permet d'identifier les articles fréquemment achetés ensemble. Des algorithmes comme Apriori sont couramment utilisés ici. En savoir plus sur l'extraction de règles d'association.
  • Détection d'anomalie: Cette technique se concentre sur l'identification des points de données qui s'écartent de manière significative de la majorité des données. Elle est largement utilisée pour la détection des fraudes, la sécurité des réseaux et l'identification des défauts de fabrication.
  • Modèles génératifs: Certains modèles non supervisés, comme les réseaux adversariaux génératifs (GAN) ou les autoencodeurs, peuvent apprendre la distribution sous-jacente des données pour générer de nouveaux échantillons de données qui ressemblent aux données d'origine.

Applications dans le monde réel

L'apprentissage non supervisé a de nombreuses applications dans différents domaines :

Comparaison avec d'autres paradigmes d'apprentissage

L'apprentissage non supervisé diffère considérablement des autres approches de ML :

L'apprentissage non supervisé est un outil puissant pour explorer les données, découvrir des structures cachées et extraire des caractéristiques précieuses, servant souvent de première étape critique dans des pipelines d'analyse de données complexes ou complétant d'autres techniques de ML. Des plateformes comme Ultralytics HUB fournissent des environnements où divers modèles ML, intégrant potentiellement des techniques non supervisées pour la préparation ou l'analyse des données, peuvent être développés et gérés. Des cadres tels que PyTorch et TensorFlow offrent des bibliothèques étendues qui prennent en charge la mise en œuvre d'algorithmes non supervisés.

Tout lire