Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant

Comparaison entre l'apprentissage supervisé et l'apprentissage non supervisé en vision par ordinateur

Découvrez les différences entre l'apprentissage supervisé et non supervisé en vision par ordinateur, et apprenez à choisir l'approche la mieux adaptée à vos données et aux objectifs de votre projet.

Développez vos projets de vision par ordinateur avec Ultralytics

Démarrer

L'intelligence artificielle (IA) repose sur le principe fondamental qui consiste à apprendre aux machines à apprendre et à raisonner d'une manière qui s'apparente à l'intelligence humaine. À l'instar des êtres humains qui apprennent par différentes méthodes, telles que l'enseignement direct ou l'observation de schémas et d'expériences, les systèmes d'IA et d'apprentissage automatique sont conçus pour suivre ces mêmes approches.

Plus précisément, en ce qui concerne les algorithmes d'apprentissage automatique, les systèmes sont entraînés à tirer des enseignements des données plutôt que d'être programmés de manière explicite pour chaque tâche. Au lieu de s'appuyer sur des règles fixes, les modèles d'apprentissage automatique identifient des schémas dans les données et s'en servent pour établir des prévisions ou prendre des décisions.

Par exemple, la vision par ordinateur est une branche de l'IA et de l'apprentissage automatique qui vise à permettre aux systèmes d'interpréter et de comprendre les informations visuelles, telles que les images et les vidéos. Qu'il s'agisse de reconnaître des objets ou d'identifier des tendances cachées dans de vastes ensembles de données, ces systèmes dépendent fortement de la manière dont ils sont entraînés à apprendre.

Diverses techniques d'apprentissage en intelligence artificielle sont utilisées pour entraîner ces systèmes, en fonction du type de données disponibles et du problème à résoudre. 

Certains modèles de vision par ordinateur s'entraînent à partir de données étiquetées, où chaque entrée est associée à une réponse correcte, ce qui signifie que chaque image ou point de données est accompagné d'une étiquette prédéfinie qui indique au modèle ce qu'elle représente. Cela permet au modèle d'apprendre la relation entre l'entrée et la sortie attendue, améliorant ainsi sa capacité à faire des prédictions précises sur de nouvelles données qu'il n'a jamais vues auparavant.

D'autres modèles de vision s'appuient sur des données non étiquetées, pour lesquelles aucune réponse prédéfinie n'est fournie, et s'attachent plutôt à identifier des schémas et des relations au sein même des données. Ces approches sont respectivement appelées « apprentissage supervisé » et « apprentissage non supervisé », et elles constituent le fondement de nombreux systèmes de vision par ordinateur de pointe.

Dans cet article, nous allons nous intéresser à l'apprentissage supervisé et non supervisé, à leur utilisation dans la vision par ordinateur, ainsi qu'à la manière de choisir l'approche la mieux adaptée à votre projet d'IA en vision. C'est parti !

Comment les méthodes d'apprentissage par l'IA stimulent la vision par ordinateur

On peut comparer l'intelligence artificielle à un parapluie, qui recouvre tout un éventail de technologies permettant aux machines d'accomplir des tâches qui requièrent généralement l'intelligence humaine. Dans ce cadre, l'apprentissage automatique est un domaine clé qui permet aux systèmes d'apprendre à partir de données plutôt que de se fier uniquement à des règles fixes.

Dans le domaine de l'apprentissage automatique, différentes techniques d'apprentissage déterminent la manière dont un modèle apprend et s'améliore au fil du temps. Des approches telles que l'apprentissage supervisé (apprentissage à partir de données étiquetées avec des réponses correctes), l'apprentissage non supervisé (identification de modèles dans des données non étiquetées), l'apprentissage par renforcement (apprentissage par essais et erreurs à l'aide de retours d'information ou de récompenses) et l'apprentissage semi-supervisé (combinaison d'une petite quantité de données étiquetées avec une grande quantité de données non étiquetées) définissent la manière dont les systèmes traitent les données d'entrée et génèrent des données de sortie.

Fig. 1. Aperçu des méthodes d'apprentissage en IA (Source)

Les systèmes de vision par ordinateur, notamment, sont conçus à l'aide de ces approches d'apprentissage afin d'interpréter et de comprendre les données visuelles. L'apprentissage supervisé est la méthode la plus couramment utilisée, car elle permet aux modèles d'apprendre à partir d'exemples clairement étiquetés et de produire des résultats précis et fiables. 

Par exemple, un modèle peut être entraîné à partir d'images étiquetées « chat » et « chien », en apprenant des caractéristiques telles que la forme, les oreilles et la structure faciale, afin de pouvoir classify correctement classify images à l'aide d'algorithmes de classification. Parallèlement, l'apprentissage non supervisé et semi-supervisé est également utilisé en vision par ordinateur, souvent pour mettre en évidence des tendances dans les données ou pour améliorer les performances lorsque les données étiquetées sont limitées.

Un aperçu de l'utilisation des modèles d'apprentissage supervisé en vision par ordinateur

On peut comparer les algorithmes d'apprentissage supervisé à une salle de classe, où un enseignant donne des exemples accompagnés des bonnes réponses afin que les élèves puissent apprendre ce qui est correct et ce qui ne l'est pas. En apprentissage automatique, les modèles apprennent de la même manière à partir de données étiquetées, où chaque entrée est associée à une sortie connue.

Imaginons que vous travailliez à la mise au point d'un système de vision par ordinateur capable d'automatiser l'analyse des matchs de baseball. Vous pourriez entraîner un modèle tel Ultralytics sur des images ou des images vidéo où des objets tels que la balle, la batte et les joueurs sont étiquetés. 

Chaque objet serait associé à son emplacement et à sa catégorie, ce qui permettrait au modèle d'apprendre ce qu'il doit rechercher. Au fil du temps, le modèle sera capable de detect de localiser ces objets dans de nouvelles séquences vidéo, ce qui facilitera des applications telles que le suivi du ballon et la détection des joueurs d'une image à l'autre.

Fig. 2. Exemple de détection d'objets grâce à l'apprentissage supervisé (Source)

Au-delà de la détection d'objets, l'apprentissage supervisé est largement utilisé dans toute une série de tâches de vision par ordinateur, telles que la classification d'images, la segmentation d'instances et l'estimation de la pose, où la précision et la cohérence sont essentielles. Dans chacune de ces tâches, les modèles apprennent à partir de données étiquetées afin d'identifier des modèles spécifiques et de formuler des prédictions fiables sur de nouvelles entrées.

Ces modèles sont généralement développés à l'aide de l'apprentissage profond, une forme d'apprentissage automatique qui utilise des réseaux neuronaux pour extraire des modèles directement à partir des données. Les réseaux neuronaux sont conçus pour traiter l'information d'une manière qui s'inspire librement du fonctionnement du cerveau humain, ce qui permet aux modèles d'apprendre des caractéristiques visuelles complexes à partir de vastes ensembles de données.

Les premières approches en vision par ordinateur s'appuyaient souvent sur des caractéristiques définies manuellement, associées à des algorithmes tels que les machines à vecteurs de support (les SVM sont des modèles qui classify en déterminant la meilleure frontière entre les catégories) ou les arbres de décision (modèles qui prennent des décisions en divisant les données en branches). 

En revanche, les modèles de vision par ordinateur actuels ont recours à l'apprentissage profond pour extraire automatiquement ces caractéristiques des données, ce qui leur permet de traiter plus efficacement des tâches visuelles à grande échelle et très détaillées.

Comprendre l'importance des modèles d'apprentissage non supervisé dans l'IA visuelle

Si l'apprentissage supervisé est l'approche privilégiée en vision par ordinateur, il existe certaines applications de vision pour lesquelles on ne dispose pas de données étiquetées, ou dont la création s'avère trop coûteuse et trop longue. 

Dans ces cas-là, les algorithmes d'apprentissage non supervisé peuvent constituer une alternative utile. Imaginons que vous disposiez d'une vaste collection de photos non étiquetées provenant d'une caméra de surveillance de la faune sauvage. 

Il n'y a pas d'étiquettes indiquant ce que contient chaque image, mais vous souhaitez tout de même organiser ou comprendre ces données. Un modèle non supervisé peut analyser ces images et regrouper celles qui se ressemblent, en classant les animaux qui se ressemblent dans des groupes distincts, même sans connaître leurs étiquettes exactes.

Comment fonctionne l'apprentissage non supervisé en vision par ordinateur

Alors, comment fonctionne l'apprentissage automatique non supervisé ? Au lieu de s'appuyer sur des réponses correctes, le modèle apprend en identifiant de lui-même les tendances et la structure des données. Il recherche les similitudes et les différences entre les données sans s'appuyer sur des exemples étiquetés.

Un cas d'utilisation courant est la détection d'anomalies, dans laquelle le modèle apprend à reconnaître les données normales, puis identifie tout ce qui s'en écarte. La détection des anomalies et des valeurs aberrantes est l'une des applications industrielles les plus percutantes. On peut citer, par exemple, la détection d'articles défectueux sur une chaîne de production, le signalement d'examens médicaux inhabituels à l'attention d'un radiologue, ou encore la détection d'activités suspectes dans des images de vidéosurveillance. Les défauts et les anomalies étant souvent rares et variés, il est peu pratique d'étiqueter tous les cas possibles, ce qui rend les approches non supervisées tout à fait adaptées.

Pour ce faire, on recourt souvent à des techniques telles que le regroupement par grappes et la réduction de dimensionnalité, généralement appliquées aux caractéristiques extraites des images plutôt qu'aux images brutes elles-mêmes. Les méthodes de regroupement par grappes, comme le regroupement par k-moyennes, regroupent des images similaires en fonction de motifs communs, tandis que les techniques de réduction de dimensionnalité, telles que l'analyse en composantes principales (ACP), simplifient les données en se concentrant sur les caractéristiques les plus importantes. 

Cela permet au modèle d'identifier plus facilement des tendances et des structures significatives au sein d'ensembles de données volumineux et complexes. Le principal avantage de l'apprentissage non supervisé est qu'il fonctionne bien avec des données non étiquetées et qu'il peut mettre en évidence des tendances qui ne sont pas immédiatement évidentes. Cependant, il est plus difficile à évaluer et offre moins de contrôle sur le résultat final par rapport à l'apprentissage supervisé.

Apprentissage auto-supervisé et semi-supervisé en vision par ordinateur

En vous penchant sur l'apprentissage supervisé et non supervisé, vous vous demandez peut-être s'il existe un juste milieu entre les deux. Il est intéressant de noter que l'apprentissage auto-supervisé et semi-supervisé comble justement ce fossé entre l'apprentissage supervisé et non supervisé.

Ces approches permettent aux modèles d'apprendre plus efficacement à partir de données non étiquetées. Au lieu de se fier uniquement à des exemples étiquetés, ils créent leurs propres tâches d'apprentissage à partir des données ou combinent un petit ensemble de données étiquetées avec un ensemble plus vaste de données non étiquetées.

Dans l'apprentissage auto-supervisé, le modèle apprend en résolvant des tâches générées à partir des données elles-mêmes. Par exemple, on peut lui présenter une image dont une partie est manquante et il apprendra à prédire ce qui devrait occuper cet espace, ou bien il apprendra à reconnaître différentes vues d'un même objet. Cela permet au modèle d'apprendre des caractéristiques utiles sans avoir besoin d'étiquettes attribuées manuellement.

En revanche, dans l'apprentissage semi-supervisé, on utilise une petite quantité de données étiquetées en complément d'un ensemble plus vaste de données non étiquetées afin d'améliorer les performances. Dans certains cas, le modèle peut générer des étiquettes pour les données non étiquetées et s'en servir pour poursuivre son apprentissage.

Le principal avantage de ces approches est qu'elles réduisent le besoin de disposer de vastes ensembles de données étiquetées, dont la création est souvent coûteuse et prend beaucoup de temps. Elles peuvent toutefois s'avérer plus complexes à concevoir et à évaluer que les méthodes entièrement supervisées.

Principales différences entre l'apprentissage supervisé et l'apprentissage non supervisé

La différence entre l'apprentissage supervisé et l'apprentissage non supervisé réside dans la manière dont un modèle apprend et dans l'objectif qu'il cherche à atteindre. Alors que l'apprentissage supervisé s'appuie sur des données étiquetées et des instructions claires pour apprendre des tâches spécifiques, l'apprentissage non supervisé fonctionne sans réponses prédéfinies et se concentre sur la découverte de modèles et de structures au sein des données.

Par exemple, dans un système de surveillance du trafic, un modèle d'apprentissage supervisé peut être entraîné à partir d'images étiquetées afin de detect , des piétons ou des feux de signalisation. À l'inverse, un modèle non supervisé pourrait analyser de grandes quantités d'enregistrements vidéo pour regrouper des schémas de circulation similaires ou identifier des événements inhabituels, tels qu'un embouteillage imprévu ou un mouvement anormal, sans qu'on lui indique explicitement ce qu'il doit rechercher.

Quand recourir à l'apprentissage supervisé en vision par ordinateur

L'apprentissage supervisé est une excellente option pour les tâches de vision par ordinateur dont l'objectif est clairement défini et où le modèle doit associer les données d'entrée à des résultats précis. Il s'avère particulièrement efficace lorsque l'on dispose d'un ensemble de données étiquetées fiable et que l'on a besoin de résultats cohérents et prévisibles.

Fig. 3. Tâches de vision par ordinateur reposant sur l'apprentissage supervisé (Source)

Cette approche est couramment utilisée pour les problèmes où le modèle doit distinguer des catégories connues ou prédire des résultats spécifiques. Plutôt que d'explorer des tendances, l'accent est mis sur l'apprentissage de relations précises à partir de données étiquetées, ce qui facilite l'orientation du modèle vers le résultat souhaité.

Un autre avantage majeur réside dans le contrôle. L'apprentissage supervisé permet de mesurer plus facilement les performances à l'aide d'indicateurs clairs, d'affiner le modèle et de garantir un comportement stable lors du déploiement. Cela en fait la solution idéale pour les systèmes qui exigent cohérence et fiabilité sur le long terme.

Cela présente toutefois un inconvénient. Le modèle dépend fortement de la qualité et du volume des données étiquetées, et la collecte et l'annotation de ces données peuvent prendre beaucoup de temps.

Exemples concrets de vision par ordinateur supervisée

Les modèles de vision par IA, tels que YOLO Ultralytics , ont recours à l'apprentissage supervisé pour effectuer des tâches telles que la détection d'objets avec une grande précision, en particulier dans les applications en temps réel. Voici quelques cas d'utilisation concrets courants de la vision par IA où l'apprentissage supervisé fait toute la différence :

  • Santé et imagerie médicale : les médecins peuvent utiliser des systèmes de vision par ordinateur entraînés à partir d'examens diagnostiques étiquetés, tels que des radiographies ou des IRM, dans lesquels des classificateurs permettent d'identifier des pathologies telles que des tumeurs ou des fractures, ce qui favorise des diagnostics plus rapides et plus précis.
  • Contrôle qualité industriel : dans les environnements de fabrication, les systèmes de vision entraînés à partir de données étiquetées peuvent inspecter les produits en analysant un certain nombre de caractéristiques liées à la qualité, telles que la forme, les défauts de surface, la texture et la taille. En apprenant à partir d'exemples de produits conformes et de produits défectueux, ces systèmes sont capables d'identifier les défauts de manière cohérente et de garantir le respect des normes de production.
  • Conduite autonome : les systèmes de conduite autonome s'appuient sur des modèles entraînés à partir de données de conduite étiquetées pour reconnaître les voies, les véhicules, les piétons et les panneaux de signalisation, ce qui permet aux véhicules de se déplacer en toute sécurité en temps réel.
  • Systèmes de vente au détail et de caisse : les magasins utilisent des modèles entraînés à partir d'images de produits étiquetées pour identifier les articles en rayon ou à la caisse, ce qui permet une facturation automatisée et une gestion plus efficace des stocks. Associés à des données supplémentaires, ces systèmes peuvent également faciliter des tâches telles que la segmentation de la clientèle, aidant ainsi les entreprises à mieux comprendre les habitudes d'achat.
  • Agriculture et surveillance des cultures : les agriculteurs peuvent utiliser des modèles entraînés à partir d'images étiquetées pour detect classify , par exemple pour identifier et compter les pommes de terre saines et abîmées, améliorer le contrôle qualité et réduire les pertes.
Fig. 4. Utilisation de YOLO detect compter les pommes de terre saines et celles présentant des défauts

Quels types de problèmes liés à la vision par ordinateur l'apprentissage non supervisé permet-il de résoudre ?

L'apprentissage non supervisé est utile lorsque vous ne disposez pas de suffisamment de données étiquetées ou lorsque vos données ne fournissent pas de réponses claires. Dans ces situations, l'objectif n'est pas de faire des prédictions exactes, mais de comprendre les tendances et la structure des données.

Cette méthode est souvent utilisée lorsqu'on explore pour la première fois un ensemble de données non étiqueté. Au lieu d'indiquer au modèle ce qu'il doit rechercher, on lui permet d'identifier lui-même les similitudes, de regrouper les images apparentées ou de mettre en évidence des schémas inhabituels.

Dans un vaste ensemble d'images, une approche non supervisée peut aider à regrouper les images similaires ou à signaler les valeurs aberrantes qui pourraient nécessiter une attention particulière. Cela en fait un point de départ utile pour les projets en science des données.

Les modèles génératifs, notamment les GAN, les auto-encodeurs variationnels et les modèles de diffusion, apprennent la distribution sous-jacente des images afin d'en créer de toutes nouvelles. Ces modèles sont à la base d'applications telles que la synthèse d'images, la retouche d'images, la super-résolution et le transfert de style, et constituent la colonne vertébrale des systèmes d'IA générative actuels.

Segmentation non supervisée : certaines méthodes regroupent des pixels ou des régions en segments cohérents sans s'appuyer sur des masques étiquetés, ce qui s'avère utile lorsque l'annotation est trop coûteuse ou lorsque l'objectif est de mettre en évidence une structure plutôt que de faire correspondre des catégories prédéfinies.

L'apprentissage non supervisé s'avère également très utile lorsqu'on travaille avec de grands ensembles de données pour lesquels l'étiquetage est fastidieux ou peu envisageable. Dans de tels cas, il permet de tirer des enseignements des données sans avoir recours à des données d'apprentissage étiquetées. 

Il est également couramment utilisé dans des domaines tels que l'IA générative (modèles qui créent de nouvelles données, comme des images, du texte ou des fichiers audio) et l'apprentissage par représentation (modèles qui extraient des caractéristiques ou des modèles utiles à partir de données brutes), où les modèles apprennent des caractéristiques générales à partir de grandes quantités de données. Dans l'ensemble, si votre problématique implique l'exploration, la découverte de modèles ou le traitement de données non étiquetées, l'apprentissage non supervisé constitue une approche flexible et pratique à envisager.

Exemples concrets d'apprentissage non supervisé en vision par ordinateur

Voici quelques exemples d'applications où l'apprentissage non supervisé est utilisé en vision par ordinateur :

  • Détection des anomalies dans le secteur manufacturier : les modèles peuvent apprendre à reconnaître l'aspect des produits normaux et signaler les défauts ou les irrégularités sans avoir besoin d'exemples étiquetés pour chaque défaut possible.
  • Organisation et recherche d'images : les vastes collections d'images, telles que les bibliothèques de photos ou les catalogues de commerce électronique, peuvent être regroupées automatiquement en fonction de leur similitude visuelle, ce qui permet aux data scientists d'organiser, d'explorer et d'effectuer des recherches plus facilement dans de grands ensembles de données.
  • Surveillance et sécurité : les systèmes peuvent analyser des séquences vidéo afin d'identifier des schémas ou des comportements inhabituels, tels que des mouvements inattendus ou des changements dans la composition d'une foule, sans avoir été explicitement entraînés sur des événements étiquetés.
  • Prétraitement et exploration des données : les méthodes non supervisées sont souvent utilisées pour explorer et structurer les données d'images brutes avant l'entraînement des modèles supervisés, ce qui contribue à améliorer la qualité des données et à réduire la charge de travail manuelle. 

Limites pratiques de l'apprentissage supervisé et non supervisé

Malgré les avantages de ces deux approches d'apprentissage, il convient de tenir compte de certaines limites. Voici quelques aspects pratiques à garder à l'esprit lors de la création de modèles de vision par ordinateur :

  • Le surapprentissage dans les modèles supervisés : dans l'apprentissage supervisé, un modèle peut s'attacher trop étroitement aux données d'entraînement au lieu d'apprendre des schémas généraux. Cela se produit souvent lorsque l'ensemble de données est trop restreint ou manque de diversité. Par exemple, un modèle entraîné à detect sur un type de produit donné peut échouer lorsqu'il est testé sur de nouvelles données concernant des produits ou des conditions d'éclairage légèrement différents.
  • Les défis liés aux algorithmes de regroupement : dans l'apprentissage non supervisé, un modèle peut regrouper des points de données similaires. Cependant, ce processus peut échouer lorsque les données sont bruitées, incohérentes ou dépourvues d'une structure claire. Par exemple, dans les tâches de regroupement d'images, des images présentant des couleurs similaires mais des objets différents peuvent être regroupées de manière erronée.
  • Importance d'un prétraitement adéquat : avant l'entraînement, les données doivent être nettoyées et préparées. Cette opération s'effectue généralement à l'aide de Python spécialisées dans le traitement d'images et la transformation des données. Elle revêt une importance particulière dans le domaine de la vision par ordinateur, où les images peuvent varier en termes de taille, de qualité ou d'éclairage. Sans un prétraitement adéquat, les modèles risquent d'apprendre à partir du bruit plutôt que de motifs significatifs, ce qui se traduirait par de mauvaises performances.

Principaux points à retenir

En vision par ordinateur, l'apprentissage supervisé et l'apprentissage non supervisé jouent tous deux un rôle important. Le choix de l'approche appropriée dépend du type de données dont vous disposez (étiquetées ou non), du problème que vous cherchez à résoudre et de vos besoins en matière de déploiement. 

Si votre objectif est d'obtenir une grande précision et des résultats clairement définis, l'apprentissage automatique supervisé est souvent le meilleur choix. Si vous explorez des données ou travaillez sans étiquettes, l'apprentissage non supervisé peut s'avérer plus adapté.

Vous voulez en savoir plus sur l'IA ? Consultez notre communauté et notre dépôt GitHub. Explorez nos pages de solutions pour en savoir plus sur l'IA dans la robotique et la vision par ordinateur dans l'agriculture. Découvrez nos options de licence et commencez à créer avec la vision par ordinateur dès aujourd'hui ! 

Construisons ensemble l'avenir de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique