Data Labeling
Apprends les fondamentaux de l'étiquetage des données pour l'apprentissage automatique. Découvre les types clés comme la détection d'objets et comment accélérer les flux de travail en utilisant Ultralytics YOLO26.
L'étiquetage des données est le processus fondamental qui consiste à identifier des données brutes (comme des images, des séquences vidéo, du texte ou de l'audio) et à y ajouter des balises informatives ou des métadonnées pour leur donner du contexte. Dans le domaine du machine learning (ML), les algorithmes ne peuvent pas comprendre le monde physique de manière innée ; ils ont besoin d'un « enseignant » pour les guider. Cette orientation se présente sous la forme de jeux de données étiquetés utilisés lors de l'apprentissage supervisé. Les étiquettes servent de vérité terrain, représentant les bonnes réponses que le modèle s'efforce de prédire. Que tu entraînes un classificateur simple ou une architecture complexe comme Ultralytics YOLO26, la précision, la cohérence et la qualité de ces étiquettes sont les principaux facteurs déterminants du succès de ton modèle.
Link to this sectionÉtiquetage des données vs Annotation de données#
Bien que ces termes soient souvent utilisés de manière interchangeable dans les conversations informelles, il existe une distinction subtile qui mérite d'être notée. L'« étiquetage des données » fait généralement référence à l'acte large consistant à assigner une catégorie ou une étiquette à une donnée (par exemple, étiqueter un e-mail comme « spam »). En revanche, l'annotation de données est souvent plus spécifique à la vision par ordinateur (CV) et implique la délimitation précise d'objets à l'aide de bounding boxes, de polygones ou de points clés. Cependant, dans la plupart des flux de travail MLOps, les deux termes décrivent la création de données d'entraînement de haute qualité.
Link to this sectionTypes principaux en vision par ordinateur#
La méthode d'étiquetage change en fonction de la tâche que le modèle doit accomplir. Les types courants incluent :
- Classification d'images : Assigner une étiquette unique à une image entière, par exemple identifier une condition météorologique comme « nuageux » ou « ensoleillé ».
- Détection d'objets : Dessiner des bounding boxes 2D autour d'objets distincts pour apprendre au modèle ce qu'est l'objet et où il est situé.
- Segmentation d'instance : Créer des masques parfaits au pixel près ou des polygones autour des objets, ce qui est essentiel pour déterminer des formes et des limites précises.
- Estimation de pose : Marquer des points clés spécifiques sur un sujet, comme les articulations squelettiques, pour analyser le mouvement ou la posture.
Link to this sectionApplications concrètes#
L'utilité de l'étiquetage des données s'étend à pratiquement tous les secteurs utilisant l'IA.
-
Véhicules autonomes : Les voitures autonomes dépendent de jeux de données massifs où chaque véhicule, piéton, panneau de signalisation et marquage au sol est minutieusement étiqueté. Ces données étiquetées permettent au système de perception de naviguer dans des environnements complexes en toute sécurité. Les entreprises de véhicules autonomes investissent massivement dans l'étiquetage au niveau du pixel pour garantir la conformité aux normes de sécurité.
-
Agriculture de précision : Dans l'agriculture moderne, l'IA dans l'agriculture est utilisée pour détecter les maladies des cultures ou surveiller les stades de croissance. Les agriculteurs utilisent des modèles entraînés sur des images étiquetées de feuilles « saines » versus « malades » pour automatiser le traitement, réduisant ainsi l'utilisation de produits chimiques et augmentant le rendement.
Link to this sectionLe flux de travail d'étiquetage#
La création d'un jeu de données étiqueté est souvent la partie la plus chronophage d'un projet d'IA. Le processus implique généralement une approche « Human-in-the-Loop » (HITL), où des annotateurs humains vérifient les étiquettes pour garantir une haute précision. Les flux de travail modernes exploitent des outils comme la Plateforme Ultralytics, qui simplifie la gestion des jeux de données et permet aux équipes de collaborer sur les annotations. Des techniques avancées comme l'apprentissage actif peuvent également être employées : un modèle pré-étiquette les données, et les humains ne corrigent que les prédictions à faible confiance, accélérant ainsi considérablement le processus.
L'exemple suivant démontre comment utiliser un modèle YOLO26 pré-entraîné pour générer automatiquement des étiquettes (auto-étiquetage) pour une nouvelle image, qui peuvent ensuite être corrigées par des humains :
from ultralytics import YOLO
# Load the YOLO26n model (nano version)
model = YOLO("yolo26n.pt")
# Run inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Save the detection results to a text file in standard YOLO format
# This file can now be used as a starting point for data labeling
results[0].save_txt("bus_labels.txt")





