Glossaire

Étiquetage des données

Découvrez le rôle essentiel de l'étiquetage des données dans l'apprentissage automatique, son processus, ses défis et ses applications réelles dans le développement de l'IA.

L'étiquetage des données est le processus d'identification des données brutes (telles que les images, les fichiers texte ou les vidéos) et l'ajout d'une ou plusieurs étiquettes ou annotations informatives pour fournir un contexte, permettant à un modèle d'apprentissage automatique d'apprendre à partir de ces données. Ce processus est fondamental pour l'apprentissage supervisé, où l'ensemble de données étiquetées sert de "vérité de base" que l'algorithme utilise pour s'entraîner à faire des prédictions précises sur de nouvelles données non étiquetées. L'étiquetage de haute qualité des données est l'une des étapes les plus critiques et les plus longues de la construction d'un modèle d'IA robuste, car les performances du modèle dépendent directement de la qualité et de la précision des étiquettes à partir desquelles il apprend.

Pourquoi l'étiquetage des données est-il important ?

L'étiquetage des données constitue la base nécessaire pour que les modèles comprennent et interprètent le monde. Dans le domaine de la vision par ordinateur (VA), les étiquettes apprennent à un modèle à reconnaître ce qu'est un objet et où il se trouve dans une image. Sans étiquettes précises, un modèle ne peut pas apprendre les modèles nécessaires à l'accomplissement de sa tâche, ce qui entraîne une faible précision et un manque de fiabilité. La qualité des données d'apprentissage, créées par l'étiquetage, détermine directement la qualité de l'IA qui en résulte. Ce principe est souvent résumé par l'expression "garbage in, garbage out". Les ensembles de données de référence bien étiquetés tels que COCO et ImageNet ont contribué à faire progresser l'état de l'art dans le domaine de la vision par ordinateur.

Types d'étiquetage des données dans le domaine de la vision par ordinateur

Différentes tâches de CV nécessitent différents types d'annotation. Les méthodes les plus courantes sont les suivantes :

  • Classification d'images: La forme la plus simple, où une étiquette unique est attribuée à une image entière pour décrire son contenu (par exemple, "chat", "chien"). Vous pouvez explorer des ensembles de données pour cette tâche, comme CIFAR-100.
  • Détection d'objets: Il s'agit de dessiner un cadre autour de chaque objet d'intérêt dans une image et de lui attribuer une étiquette de classe. Cela indique au modèle ce qu'est l'objet et où il se trouve.
  • Segmentation d'image: Méthode plus granulaire qui consiste à définir la forme exacte d'un objet au niveau du pixel. Elle peut être divisée en segmentation sémantique, où tous les objets de la même classe partagent un masque, et en segmentation d'instance, où chaque instance d'objet est segmentée séparément.
  • Estimation de la pose: Cette technique permet d'identifier la position et l'orientation des objets en annotant des points clés. Par exemple, dans l'estimation de la pose humaine, les points clés marquent les articulations telles que les coudes, les genoux et les poignets. L'ensemble de données COCO Keypoints est une ressource populaire pour cette tâche.

Applications dans le monde réel

  1. Véhicules autonomes : L'étiquetage des données est essentiel pour former les systèmes de perception des voitures autonomes. Les annotateurs humains étiquettent méticuleusement des millions d'images et de trames vidéo, en dessinant des boîtes de délimitation autour des voitures, des piétons et des cyclistes, en segmentant les marquages des voies et en classant les panneaux de signalisation. Ces données riches et étiquetées permettent à des modèles comme Ultralytics YOLO11 d'apprendre à naviguer en toute sécurité dans des environnements urbains complexes. Le travail effectué par des entreprises comme Waymo s'appuie fortement sur de vastes ensembles de données étiquetées avec précision. Vous pouvez en savoir plus sur ce domaine sur notre page de solutions d'IA dans l'automobile.
  2. Analyse d'images médicales : Dans le domaine de l'IA appliquée aux soins de santé, les radiologues et les experts médicaux étiquettent les scanners tels que les IRM, les CT et les radiographies afin d'identifier les tumeurs, les lésions et d'autres anomalies. Par exemple, dans un ensemble de données sur les tumeurs cérébrales, les experts décrivent les limites exactes d'une tumeur. Ces données étiquetées sont utilisées pour former des modèles qui peuvent contribuer à un diagnostic précoce, ce qui pourrait réduire la charge de travail des professionnels de la santé et améliorer les résultats pour les patients. La Radiological Society of North America (RSNA) étudie activement le rôle de l'IA dans les diagnostics médicaux.

Étiquetage des données et concepts connexes

L'étiquetage des données est souvent effectué parallèlement à d'autres tâches de préparation des données, mais il est important de les distinguer :

  • Augmentation des données: Cette technique élargit artificiellement l'ensemble de données de formation en créant des versions modifiées de données déjà étiquetées (par exemple, en faisant pivoter, en retournant ou en changeant la luminosité d'une image). L'augmentation accroît la diversité des données mais dépend d'un ensemble initial de données étiquetées. Une vue d'ensemble de l'augmentation des données fournit plus de détails.
  • Nettoyage des données: Ce processus consiste à identifier et à corriger ou supprimer les erreurs, les incohérences et les inexactitudes d'un ensemble de données. Bien que cela puisse inclure la correction d'étiquettes incorrectes, le nettoyage des données est une étape d'assurance qualité, alors que l'étiquetage des données est l'acte initial de création des annotations. Le nettoyage des données sur Wikipédia offre un contexte supplémentaire.
  • Prétraitement des données: Il s'agit d'un terme générique plus large qui englobe l'étiquetage des données, le nettoyage et d'autres transformations telles que la normalisation ou le redimensionnement des images afin de les préparer pour un modèle. L'étiquetage est une étape spécifique et cruciale de la chaîne de prétraitement.

Défis et solutions

Malgré son importance, l'étiquetage des données présente de nombreux défis, notamment des coûts élevés, un investissement en temps important et un risque d'erreur humaine ou de subjectivité. Garantir la qualité et la cohérence des étiquettes au sein de grandes équipes d'annotateurs est un obstacle logistique majeur.

Pour rationaliser ce processus, les équipes utilisent souvent des outils d'annotation spécialisés comme CVAT ou des plateformes comme Ultralytics HUB, qui fournissent un environnement collaboratif pour la gestion des ensembles de données et des flux de travail d'étiquetage. En outre, des techniques avancées comme l'apprentissage actif peuvent aider en sélectionnant intelligemment les points de données les plus informatifs à étiqueter, optimisant ainsi l'utilisation du temps et des efforts des annotateurs humains. Comme l'explique un article du Stanford AI Lab, la qualité des données est la clé du succès de l'IA.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers