Étiquetage des données
Découvrez le rôle essentiel de l'étiquetage des données dans l'apprentissage automatique, son processus, ses défis et ses applications concrètes dans le développement de l'IA.
L'étiquetage des données est le processus d'identification des données brutes (telles que des images, des fichiers texte ou des vidéos) et d'ajout d'un ou plusieurs étiquettes ou annotations informatives pour fournir un contexte, permettant à un modèle d'apprentissage automatique d'apprendre à partir de celles-ci. Ce processus est fondamental pour l'apprentissage supervisé, où l'ensemble de données étiquetées sert de "vérité de terrain" que l'algorithme utilise pour s'entraîner à faire des prédictions précises sur de nouvelles données non étiquetées. L'étiquetage de données de haute qualité est l'une des étapes les plus critiques et les plus longues dans la construction d'un modèle d'IA robuste, car les performances du modèle dépendent directement de la qualité et de la précision des étiquettes à partir desquelles il apprend.
Pourquoi l'étiquetage des données est-il important ?
L'étiquetage des données fournit la base nécessaire aux modèles pour comprendre et interpréter le monde. En vision par ordinateur (CV), les étiquettes enseignent à un modèle à reconnaître ce qu'est un objet et où il se trouve dans une image. Sans étiquettes précises, un modèle ne peut pas apprendre les modèles nécessaires pour effectuer sa tâche, ce qui entraîne une faible précision et un manque de fiabilité. La qualité des données d'entraînement, qui sont créées par l'étiquetage, dicte directement la qualité de l'IA qui en résulte. Ce principe est souvent résumé par l'expression "garbage in, garbage out" (si les données d'entrée sont mauvaises, les résultats le seront aussi). Les jeux de données de référence bien étiquetés comme COCO et ImageNet ont joué un rôle déterminant dans l'avancement de l'état de l'art en matière de vision par ordinateur.
Types d'étiquetage de données en vision par ordinateur
Différentes tâches de CV nécessitent différents types d'annotation. Les méthodes les plus courantes sont les suivantes :
- Classification d'images : La forme la plus simple, où une seule étiquette est attribuée à une image entière pour décrire son contenu (par exemple, « chat », « chien »). Vous pouvez explorer des ensembles de données pour cette tâche comme CIFAR-100.
- Détection d'objets: Implique le traçage d'une boîte englobante autour de chaque objet d'intérêt dans une image et l'attribution d'une étiquette de classe à celui-ci. Cela indique au modèle à la fois ce qu'est l'objet et où il se trouve.
- Segmentation d'images : Une méthode plus granulaire qui consiste à délimiter la forme exacte d'un objet au niveau du pixel. Cela peut être divisé en segmentation sémantique, où tous les objets de la même classe partagent un masque, et en segmentation d'instance, où chaque instance d'objet individuelle est segmentée séparément.
- Estimation de pose : Cette technique identifie la position et l'orientation des objets en annotant les points clés. Par exemple, dans l'estimation de la pose humaine, les points clés marqueraient les articulations comme les coudes, les genoux et les poignets. L'ensemble de données COCO Keypoints est une ressource populaire pour cette tâche.
Applications concrètes
- Véhicules autonomes : L'étiquetage des données est essentiel pour l'entraînement des systèmes de perception des voitures autonomes. Des annotateurs humains étiquettent méticuleusement des millions d'images et de trames vidéo, en dessinant des boîtes englobantes autour des voitures, des piétons et des cyclistes, en segmentant le marquage des voies et en classant les panneaux de signalisation. Ces données riches et étiquetées permettent aux modèles tels que Ultralytics YOLO11 d'apprendre à naviguer en toute sécurité dans des environnements urbains complexes. Le travail effectué par des entreprises comme Waymo repose en grande partie sur des ensembles de données vastes et étiquetés avec précision. Vous pouvez en apprendre davantage sur ce domaine sur notre page de solutions d'IA dans l'automobile.
- Analyse d’images médicales : Dans l’IA dans le domaine de la santé, les radiologues et les experts médicaux étiquettent les images comme les IRM, les tomodensitométries et les radiographies pour identifier les tumeurs, les lésions et autres anomalies. Par exemple, sur un ensemble de données sur les tumeurs cérébrales, les experts délimiteraient les limites exactes d’une tumeur. Ces données étiquetées sont utilisées pour entraîner des modèles qui peuvent aider au diagnostic précoce, ce qui pourrait réduire la charge de travail des professionnels de la santé et améliorer les résultats pour les patients. La Radiological Society of North America (RSNA) explore activement le rôle de l’IA dans le diagnostic médical.
Étiquetage des données vs. Concepts connexes
L'étiquetage des données est souvent effectué en même temps que d'autres tâches de préparation des données, mais il est important de faire la distinction entre elles :
- Augmentation des données : Cette technique élargit artificiellement l'ensemble de données d'entraînement en créant des versions modifiées de données déjà étiquetées (par exemple, en faisant pivoter, en retournant ou en modifiant la luminosité d'une image). L'augmentation accroît la diversité des données, mais dépend d'un ensemble initial de données étiquetées. Un aperçu de l'augmentation des données fournit plus de détails.
- Nettoyage des données : Ce processus implique l'identification et la correction ou la suppression des erreurs, des incohérences et des inexactitudes dans un ensemble de données. Bien que cela puisse inclure la correction d'étiquettes incorrectes, le nettoyage des données est une étape d'assurance qualité, tandis que l'étiquetage des données est l'acte initial de création des annotations. Le nettoyage des données sur Wikipédia offre un contexte supplémentaire.
- Prétraitement des données : Il s'agit d'un terme générique plus large qui englobe l'étiquetage des données, le nettoyage et d'autres transformations telles que la normalisation ou le redimensionnement des images afin de les préparer pour un modèle. L'étiquetage est une étape spécifique et cruciale au sein du pipeline de prétraitement plus large.
Défis et solutions
Malgré son importance, l'étiquetage des données est semé d'embûches, notamment des coûts élevés, un investissement en temps important et le risque d'erreurs humaines ou de subjectivité. Garantir la qualité et la cohérence des étiquettes au sein de grandes équipes d'annotateurs est un défi logistique majeur.
Pour rationaliser ce processus, les équipes utilisent souvent des outils d'annotation spécialisés comme CVAT ou des plateformes comme Ultralytics HUB, qui fournissent un environnement collaboratif pour la gestion des ensembles de données et des flux de travail d'étiquetage. De plus, des techniques avancées comme l'apprentissage actif peuvent aider en sélectionnant intelligemment les points de données les plus informatifs à étiqueter, optimisant ainsi l'utilisation du temps et des efforts des annotateurs humains. Comme le détaille un article du Stanford AI Lab, l'accent mis sur la qualité des données est essentiel au succès de l'IA.