Glossaire

Apprentissage non supervisé

Découvre comment l'apprentissage non supervisé utilise le regroupement, la réduction de la dimensionnalité et la détection des anomalies pour découvrir des modèles cachés dans les données.

L'apprentissage non supervisé est une catégorie de l'apprentissage machine (ML) dans laquelle les algorithmes sont formés sur des données qui n'ont pas d'étiquettes ou de catégories prédéfinies. Contrairement à l'apprentissage supervisé, l'objectif n'est pas de prédire une sortie connue en fonction des caractéristiques d'entrée. Au lieu de cela, le système essaie d'apprendre par lui-même la structure sous-jacente, les modèles et les relations au sein des données. C'est comme si tu donnais à un ordinateur une grande collection d'objets non triés et que tu lui demandais de trouver des regroupements naturels ou des caractéristiques intéressantes sans lui dire quoi chercher. Cette approche est cruciale pour l'exploration d'ensembles de données complexes et la découverte d'informations qui ne seraient pas apparentes au préalable, et constitue un élément clé de l'intelligence artificielle (IA) moderne.

Comment fonctionne l'apprentissage non supervisé

Dans l'apprentissage non supervisé, l'algorithme examine les points de données d'entrée et tente d'identifier les similitudes, les différences ou les corrélations entre eux. Il n'y a pas de "bonnes" réponses ou de résultats cibles fournis pendant la phase de formation. Les algorithmes doivent déduire la structure inhérente présente dans les données. Il s'agit souvent d'organiser les points de données en groupes(regroupement), de réduire la complexité des données(réduction de la dimensionnalité) ou d'identifier des points de données inhabituels(détection des anomalies). Le succès des méthodes non supervisées repose souvent sur la capacité de l'algorithme à capturer les propriétés intrinsèques de l'ensemble de données sans orientation externe.

Techniques et concepts clés

Plusieurs techniques relèvent de l'apprentissage non supervisé :

Regroupement: Il s'agit de regrouper des points de données similaires en fonction de certaines caractéristiques. L'objectif est de créer des groupes où les éléments d'un groupe sont très similaires et les éléments de groupes différents sont dissemblables. Les algorithmes courants comprennent le regroupement K-Means et DBSCAN. Cette méthode est utile pour des tâches telles que la segmentation de la clientèle ou l'organisation de grandes collections de documents.
Réduction de la dimensionnalité: Ces techniques visent à réduire le nombre de variables d'entrée (caractéristiques) dans un ensemble de données tout en préservant les informations essentielles. Cela simplifie les modèles, réduit les coûts de calcul et peut aider à la visualisation des données. Les méthodes les plus courantes sont l'analyse en composantes principales (ACP) et le t-Distributed Stochastic Neighbor Embedding (t-SNE).
Apprentissage des règles d'association : Cela permet de découvrir des relations intéressantes ou des règles d'association entre les variables dans de grands ensembles de données. Un exemple classique est l'analyse du panier de la ménagère, qui permet d'identifier les articles fréquemment achetés ensemble. Des algorithmes comme Apriori sont couramment utilisés ici. En savoir plus sur l'extraction de règles d'association.
Détection d'anomalie: Cette technique se concentre sur l'identification des points de données qui s'écartent de manière significative de la majorité des données. Elle est largement utilisée pour la détection des fraudes, la sécurité des réseaux et l'identification des défauts de fabrication.
Modèles génératifs: Certains modèles non supervisés, comme les réseaux adversariaux génératifs (GAN) ou les autoencodeurs, peuvent apprendre la distribution sous-jacente des données pour générer de nouveaux échantillons de données qui ressemblent aux données d'origine.

Applications dans le monde réel

L'apprentissage non supervisé a de nombreuses applications dans différents domaines :

Segmentation des clients : Les entreprises utilisent le clustering pour regrouper les clients ayant des comportements ou des données démographiques similaires, ce qui permet de mener des campagnes de marketing ciblées et de proposer des expériences personnalisées. En savoir plus sur l'IA dans la segmentation de la clientèle.
Systèmes de recommandation: L'apprentissage non supervisé permet d'identifier des modèles dans le comportement des utilisateurs (par exemple, les produits consultés ou achetés) pour suggérer des articles ou des contenus pertinents, ce qui est couramment observé sur des plateformes comme Netflix ou Amazon.
Bioinformatique : Les algorithmes de clustering regroupent les gènes ayant des profils d'expression similaires, ce qui aide les chercheurs à comprendre les fonctions génétiques et les maladies. Explore le regroupement dans l'analyse de l'expression des gènes.
Prétraitement des données : Des techniques comme l'ACP sont utilisées pour l'extraction de caractéristiques ou la réduction du bruit avant d'introduire les données dans les modèles supervisés, ce qui peut améliorer les performances. Voir les outils d'apprentissage non supervisé de Scikit-learn.

Comparaison avec d'autres paradigmes d'apprentissage

L'apprentissage non supervisé diffère considérablement des autres approches de ML :

Apprentissage supervisé: S'appuie sur des données étiquetées (paires entrée-sortie) pour former des modèles pour des tâches telles que la classification ou la régression. L'objectif est de faire correspondre des entrées à des sorties connues. Compare l'apprentissage supervisé et l'apprentissage non supervisé.
Apprentissage par renforcement: Implique qu'un agent apprenne à prendre des décisions en effectuant des actions dans un environnement afin de maximiser une récompense cumulative. Il apprend par essais et erreurs, guidé par des signaux de rétroaction (récompenses ou pénalités). Voir un aperçu de l'apprentissage par renforcement.
Apprentissage semi-supervisé: Utilise une combinaison d'une petite quantité de données étiquetées et d'une grande quantité de données non étiquetées, comblant ainsi le fossé entre l'apprentissage supervisé et non supervisé.
Apprentissage auto-supervisé: Un sous-ensemble de l'apprentissage non supervisé où les étiquettes sont automatiquement générées à partir des données d'entrée elles-mêmes, souvent utilisé pour le pré-entraînement de grands modèles comme ceux du NLP ou de la vision par ordinateur (CV).

L'apprentissage non supervisé est un outil puissant pour explorer les données, découvrir des structures cachées et extraire des caractéristiques précieuses, servant souvent de première étape critique dans des pipelines d'analyse de données complexes ou complétant d'autres techniques de ML. Des plateformes comme Ultralytics HUB fournissent des environnements où divers modèles ML, intégrant potentiellement des techniques non supervisées pour la préparation ou l'analyse des données, peuvent être développés et gérés. Des cadres tels que PyTorch et TensorFlow offrent des bibliothèques étendues qui prennent en charge la mise en œuvre d'algorithmes non supervisés.

Apprentissage non supervisé

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

Solution flexible de licence d'entreprise pour alimenter ton innovation.

Entraîne des modèles d'IA en quelques secondes avec Ultralytics YOLO

Entraîne les modèles YOLO simplement avec Ultralytics HUB

Comment fonctionne l'apprentissage non supervisé

Techniques et concepts clés

Applications dans le monde réel

Comparaison avec d'autres paradigmes d'apprentissage

Lire plus de blogs

Rejoins la communauté Ultralytics

Apprentissage non supervisé

Entraîne les modèles YOLO simplementavec Ultralytics HUB

Solution flexible de licence d'entreprise pour alimenter ton innovation.

Entraîne des modèles d'IA en quelques secondes avec Ultralytics YOLO

Entraîne les modèles YOLO simplement avec Ultralytics HUB

Comment fonctionne l'apprentissage non supervisé

Techniques et concepts clés

Applications dans le monde réel

Comparaison avec d'autres paradigmes d'apprentissage

Lire plus de blogs

Rejoins la communauté Ultralytics

Entraîne les modèles YOLO simplement
avec Ultralytics HUB