Connectez-vous à YOLO Vision 2025 !
25 septembre 2025
10:00 — 18:00, heure d'été britannique
Événement hybride
Yolo Vision 2024
Glossaire

Annotation de données

Qu'est-ce que l'annotation de données ? Découvrez comment l'étiquetage des données avec des boîtes englobantes ou des polygones est essentiel pour l'entraînement de modèles d'IA et de vision par ordinateur précis.

L'annotation de données est le processus de marquage ou d'étiquetage des données brutes pour aider les modèles d'apprentissage automatique (ML) à comprendre et à apprendre à partir de ces données. Cette étape cruciale transforme les données non structurées, telles que les images ou les vidéos, en informations structurées que les algorithmes peuvent interpréter. Dans le contexte de l'apprentissage supervisé, ces annotations servent de "vérité de terrain" : les réponses correctes que le modèle utilise pour s'entraîner. La qualité et la précision de l'annotation des données ont un impact direct sur les performances et la fiabilité du modèle d'intelligence artificielle (IA) qui en résulte. Sans annotations précises, même les modèles les plus avancés ne parviendront pas à apprendre efficacement les modèles.

Le rôle de l'annotation dans la vision par ordinateur

En vision par ordinateur (CV), l'annotation des données est fondamentale pour apprendre aux modèles à « voir » et à interpréter le monde. Elle implique l'utilisation d'un logiciel spécialisé par des annotateurs humains pour identifier et marquer les objets d'intérêt dans les données visuelles. Il existe plusieurs types d'annotations, chacun étant adapté à différentes tâches de CV :

  • Annotation de boîte englobante : Il s'agit de la forme la plus courante, utilisée pour la détection d'objets. Les annotateurs dessinent des boîtes rectangulaires autour des objets individuels et attribuent une étiquette de classe (par exemple, « voiture », « personne »).
  • Segmentation polygonale : Pour les tâches nécessitant une plus grande précision, comme la segmentation d'instance, les annotateurs tracent le contour exact de chaque objet. Cela permet au modèle de comprendre la forme et les limites spécifiques d'un objet, même lorsque les objets se chevauchent.
  • Segmentation sémantique : Cette méthode consiste à classer chaque pixel d'une image dans une catégorie spécifique (par exemple, « ciel », « route », « bâtiment »). Contrairement à la segmentation d'instance, elle ne fait pas de distinction entre les différentes instances de la même classe d'objet.
  • Annotation de points clés : Utilisée pour l'estimation de pose, cette technique consiste à marquer des points d'intérêt spécifiques (points clés) sur un objet, tels que les articulations d'un corps humain ou les coins d'un visage.
  • Classification : La forme la plus simple, où une seule étiquette est attribuée à une image entière. Ceci est fondamental pour les tâches de classification d’images.

Le choix de la méthode d'annotation dépend des objectifs spécifiques du projet CV, qui sont décrits dans le guide de définition des objectifs du projet.

Applications concrètes

  1. Véhicules autonomes : Les voitures autonomes s'appuient sur des modèles entraînés sur des données largement annotées. Les annotateurs étiquettent tout, des piétons et des cyclistes aux feux de circulation, au marquage des voies et aux panneaux de signalisation, dans des millions d'images et de nuages de points LiDAR. Ces données d'entraînement détaillées permettent au système de perception du véhicule de comprendre son environnement et de prendre des décisions de conduite sûres. Des ensembles de données comme Argoverse sont essentiels pour développer des solutions d'IA robustes dans le secteur automobile.
  2. Analyse d'images médicales : Dans l'IA pour la santé, les radiologues et les experts médicaux annotent les images médicales comme les IRM, les tomodensitométries et les radiographies pour mettre en évidence les tumeurs, les lésions, les fractures ou d'autres anomalies. Ces ensembles de données annotés, tels que l'ensemble de données public sur les tumeurs cérébrales, sont utilisés pour entraîner des modèles comme Ultralytics YOLO qui peuvent aider au diagnostic précoce et à la planification du traitement. La Radiological Society of North America (RSNA) fournit plusieurs de ces ensembles de données pour la recherche.

Annotation de données vs. Concepts connexes

L'annotation de données est souvent évoquée en parallèle avec d'autres techniques de préparation des données, mais elles ont des objectifs différents.

  • Annotation de données vs. Étiquetage de données : Ces deux termes sont fréquemment utilisés de manière interchangeable et font référence au même processus de base. Le terme « annotation » est souvent préféré dans la vision par ordinateur pour décrire des tâches plus complexes comme le dessin de polygones ou de points clés, tandis que le terme « étiquetage » peut être utilisé pour des tâches plus simples comme la classification. Cependant, à toutes fins pratiques, ils sont synonymes. Pour un examen approfondi, vous pouvez en savoir plus dans notre article explicatif sur l'étiquetage des données pour la vision par ordinateur.
  • Annotation de données vs. Augmentation de données : L'annotation est le processus de création des étiquettes initiales de vérité de terrain. L'augmentation de données, en revanche, est une technique utilisée après l'annotation pour augmenter artificiellement la taille de l'ensemble de données en créant des versions modifiées des images annotées (par exemple, en faisant pivoter, en inversant ou en modifiant la luminosité).
  • Annotation de données vs. Nettoyage de données : Le nettoyage de données implique la correction des erreurs, la suppression des doublons et la gestion des valeurs manquantes dans un ensemble de données afin de garantir sa qualité globale. Le nettoyage peut avoir lieu avant l'annotation (par exemple, la suppression des images floues) ou après (par exemple, la correction des étiquettes incorrectes), mais il est distinct de l'acte d'ajout de nouvelles étiquettes lui-même. Une qualité des données élevée est essentielle pour une annotation efficace.

Le processus d'annotation peut être géré à l'aide de divers outils, des options open source comme CVAT aux plateformes commerciales comme Scale AI et Labelbox. Des plateformes comme Ultralytics HUB fournissent des solutions intégrées pour gérer les ensembles de données, entraîner les modèles et rationaliser l'ensemble du flux de travail, de la collecte et de l'annotation des données au déploiement.

Rejoignez la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant
Lien copié dans le presse-papiers