Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Étiquetage des données

Découvrez le rôle essentiel de l'étiquetage des données dans l'apprentissage automatique, son processus, ses défis et ses applications concrètes dans le développement de l'IA.

L'étiquetage des données est le processus fondamental d'étiquetage ou d'annotation des données brutes avec un contexte significatif pour créer un ensemble de données de données adapté à l'apprentissage des modèles d'apprentissage automatique (ML). Dans le contexte de l'apprentissage Dans le contexte de l'apprentissage supervisé, les algorithmes exemples qui comprennent à la fois les données d'entrée (telles qu'une image) et la sortie attendue (l'étiquette). Ces informations étiquetées Cette information étiquetée sert de vérité de base, agissant comme la norme définitive par rapport à laquelle les modèles sont comparés. Ces informations étiquetées servent de vérité de base et constituent la norme définitive par rapport à laquelle les prédictions du modèle sont mesurées et améliorées. Sans un étiquetage de haute qualité, même les architectures les plus sophistiquées, telles que les Ultralytics YOLO11ne peuvent pas apprendre à reconnaître avec précision ou d'identifier des objets.

L'importance d'un étiquetage précis

Les performances de tout système d'intelligence artificielle sont inextricablement liées à la qualité de ses données d'apprentissage. données d'apprentissage. Si les étiquettes sont incohérentes, imprécises ou incorrectes, le modèle apprendra des associations erronées, un problème largement connu en informatique sous le nom de "garbage in, garbage out". problème largement connu en informatique sous le nom de "garbage in, garbage out". Un étiquetage précis permet aux modèles de bien s'adapter à de nouvelles données, ce qui est crucial pour le déploiement de systèmes robustes. pour déployer des applications robustes de robustes de vision par ordinateur. Les principaux de référence tels que l'ensemble de données COCO et ImageNet sont devenus des normes industrielles précisément grâce à leur étiquetage exhaustif et minutieux.

Types courants d'étiquetage dans le domaine de la vision par ordinateur

La méthode spécifique d'étiquetage des données dépend fortement de la tâche de vision par ordinateur envisagée :

  • Classification d'images: Attribution d'une catégorie unique ou d'une étiquette de classe à une image entière (par exemple, étiquetage d'une photo comme "ensoleillée" ou "pluvieuse"). ensoleillée" ou "pluvieuse").
  • Détection d'objets: Dessiner des boîtes de délimitation en 2D autour des objets d'intérêt et en attribuant une assigner une classe à chaque boîte. Le modèle apprend ainsi ce qu'est l'objet et où il se trouve.
  • Segmentation d'images: Création de masques des masques parfaits au pixel près. La segmentation sémantique étiquette les régions par catégorie (par exemple, tous les pixels "route"), tandis que la tandis que la segmentation par instance fait la distinction entre les objets individuels de la même classe (par exemple, "voiture 1", "voiture 2").
  • Estimation de la pose: Annotation points clés spécifiques d'un sujet, tels que les articulations d'un d'un corps humain (suivi du squelette), afin de comprendre le mouvement et la posture.

Applications concrètes

L'étiquetage des données permet à l'IA de fonctionner dans des environnements complexes et réels. En voici deux exemples marquants :

  1. Véhicules autonomes: Pour qu'une voiture autonome puisse naviguer en toute sécurité, elle s'appuie sur des données d'entraînement où des humains ont méticuleusement étiqueté les lignes de voie, les panneaux de signalisation, les piétons et les autres véhicules. Cela permet au système de perception de la voiture d'interpréter instantanément la géométrie de la route et les dangers potentiels. la géométrie de la route et les dangers potentiels. Vous pouvez approfondir cette question dans nos solutions sur l 'IA dans l'automobile.
  2. Analyse d'images médicales: Dans le domaine de la santé, les radiologues étiquettent les scanners médicaux afin d'identifier les anomalies. Par exemple, sur un ensemble de données de d'une tumeur cérébrale, les experts peuvent tracer les les limites exactes d'une lésion. Ces données étiquetées permettent de former des modèles pour aider les médecins à établir un diagnostic précoce, améliorant ainsi les résultats pour les patients. les résultats pour les patients. Pour en savoir plus sur l L 'IA dans les soins de santé pour voir ces modèles en action.

Étiquetage des données vs. Concepts connexes

Il est utile de distinguer l'étiquetage des termes similaires utilisés dans le pipeline de préparation des données :

  • Vs. Annotation de données: Ces termes sont souvent utilisés de manière interchangeable. Cependant, le terme "étiquetage" est parfois réservé à des tâches plus simples telles que la la classification (étiquetage), tandis que l'"annotation" implique des métadonnées plus riches, telles que le dessin de polygones ou le tracé de points clés. des points clés.
  • Vs. Augmentation des données: L'étiquetage crée l'ensemble de données initial. L'augmentation intervient par la suite, lorsqu'un logiciel modifie mathématiquement les les images étiquetées (rotation, retournement, ajout de bruit) afin d'augmenter artificiellement la diversité de l'ensemble de données sans nécessiter d'efforts l'effort humain.
  • Vs. Nettoyage des données: Il s'agit de la correction d'erreurs dans l'ensemble de données, comme la suppression de fichiers corrompus ou la correction d'éléments mal étiquetés. Le nettoyage garantit l'intégrité l'intégrité des étiquettes fournies par les annotateurs.

Outils et exemple de code

Si l'étiquetage manuel prend du temps, les flux de travail modernes utilisent souvent des logiciels spécialisés comme le CVAT (Computer Vision Annotation Tool) ou tirent parti de l'apprentissage actif pour accélérer le processus. l 'apprentissage actif pour accélérer le processus. La plateforme Ultralytics Ultralytics Platform est conçue pour rationaliser l'ensemble du cycle de vie, de l'acquisition des données à l'Ultralytics . cycle de vie, de l'acquisition des données à l'auto-annotation.

L'extrait Python suivant montre comment entraîner un modèle YOLO11 à l'aide d'un ensemble de données pré-étiquetées (coco8.yaml). Le processus de formation repose entièrement sur l'existence d'étiquettes précises définies dans le fichier de configuration du jeu de données. fichier de configuration du jeu de données.

from ultralytics import YOLO

# Load the YOLO11 model (nano version)
model = YOLO("yolo11n.pt")

# Train the model on the COCO8 dataset
# The dataset YAML file contains paths to images and their corresponding labels
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

# The model updates its weights based on the labeled data provided

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant