Glossaire

Nettoyage des données

Nettoyage des données de référence pour les projets d'IA et de ML. Apprenez des techniques pour corriger les erreurs, améliorer la qualité des données et stimuler efficacement les performances des modèles !

Le nettoyage des données est le processus d'identification et de correction ou de suppression des données corrompues, inexactes, incomplètes ou incohérentes d'un ensemble de données. Il s'agit d'une première étape cruciale dans tout processus d'apprentissage automatique, car la qualité des données d'entraînement détermine directement les performances et la fiabilité du modèle obtenu. Suivant le principe "garbage in, garbage out", le nettoyage des données garantit que les modèles comme Ultralytics YOLO sont formés sur des informations précises et cohérentes, ce qui conduit à une meilleure précision et à des prédictions plus fiables. Sans un nettoyage adéquat, les problèmes sous-jacents des données peuvent conduire à des résultats faussés et à une mauvaise généralisation du modèle.

Principales tâches de nettoyage des données

Le processus de nettoyage des données comprend plusieurs tâches distinctes destinées à résoudre différents types de problèmes de qualité des données. Ces tâches sont souvent itératives et peuvent nécessiter des connaissances spécifiques au domaine.

  • Traitement des valeurs manquantes: Les ensembles de données contiennent souvent des entrées manquantes, qui peuvent être traitées en supprimant les enregistrements incomplets ou en imputant (remplissant) les valeurs manquantes à l'aide de méthodes statistiques telles que la moyenne, la médiane ou des modèles prédictifs plus avancés. Un guide sur le traitement des données manquantes peut fournir de plus amples informations.
  • Corriger les données inexactes: Il s'agit de corriger les erreurs typographiques, les incohérences dans les mesures (par exemple, livres contre kg) et les informations factuellement incorrectes. Des règles de validation des données sont souvent appliquées pour signaler ces erreurs.
  • Suppression des doublons: Les enregistrements en double peuvent introduire un biais dans un modèle en donnant un poids excessif à certains points de données. L'identification et la suppression de ces entrées redondantes est une étape standard.
  • Gestion des valeurs aberrantes: Les valeurs aberrantes sont des points de données qui s'écartent de manière significative des autres observations. En fonction de leur cause, ils peuvent être supprimés, corrigés ou transformés pour éviter qu'ils n'aient un impact négatif sur le processus d'apprentissage du modèle. Les techniques de détection des valeurs aberrantes sont largement utilisées à cette fin.
  • La normalisation des données: Il s'agit de s'assurer que les données sont conformes à un format cohérent. Les exemples incluent la normalisation des formats de date, la mise en forme du texte (par exemple, la conversion de tout le texte en minuscules) et les conversions d'unités. Des normes de qualité des données cohérentes sont essentielles à la réussite.

Applications IA/ML dans le monde réel

  1. Analyse d'images médicales: Lors de l'entraînement d'un modèle de détection d'objets sur un ensemble de données comme celui des tumeurs cérébrales, le nettoyage des données est essentiel. Ce processus implique la suppression des fichiers d'images corrompus ou de mauvaise qualité, la normalisation de toutes les images selon une résolution et un format cohérents, et la vérification de l'exactitude des étiquettes et des annotations relatives aux patients. Le modèle apprend ainsi à partir d'informations claires et fiables, ce qui est essentiel pour développer des outils de diagnostic fiables dans le cadre de l'IA dans le secteur de la santé. Le National Institute of Biomedical Imaging and Bioengineering (NIBIB) souligne l'importance de la qualité des données dans la recherche médicale.
  2. L'IA pour la gestion des stocks dans le commerce de détail: Dans le commerce de détail piloté par l'IA, des modèles de vision artificielle surveillent les stocks en rayon à l'aide de caméras. Le nettoyage des données est nécessaire pour filtrer les images floues, supprimer les images où les produits sont masqués par les clients et dédupliquer les comptages de produits à partir d'angles de caméra multiples. En corrigeant ces problèmes, le système d'inventaire dispose d'une vue précise des niveaux de stock, ce qui permet un réapprovisionnement plus intelligent et une réduction des déchets. Des entreprises comme Google Cloud proposent des solutions d'analyse pour lesquelles la qualité des données est primordiale.

Nettoyage des données et concepts connexes

Il est important de distinguer le nettoyage des données des étapes connexes de préparation des données :

  • Prétraitement des données: Il s'agit d'un terme plus large qui englobe le nettoyage des données, mais aussi d'autres transformations visant à préparer les données pour les modèles ML, comme la normalisation (mise à l'échelle des caractéristiques numériques), l'encodage des variables catégorielles et l'extraction des caractéristiques. Alors que le nettoyage se concentre sur la correction des erreurs, le prétraitement se concentre sur le formatage des données pour les algorithmes. Voir le guide Ultralytics sur le prétraitement des données annotées pour plus de détails.
  • Étiquetage des données: Il s'agit du processus d'ajout d'étiquettes ou d'annotations informatives (labels) aux données brutes, comme le dessin de boîtes de délimitation autour d'objets dans des images pour l'apprentissage supervisé. Le nettoyage des données peut impliquer la correction d'étiquettes incorrectes identifiées lors des contrôles de qualité, mais il est distinct de l'acte initial d'étiquetage. Le guide sur la collecte et l'annotation des données fournit des informations sur l'étiquetage.
  • Augmentation des données: Cette technique augmente artificiellement la taille et la diversité de l'ensemble de données d'apprentissage en créant des copies modifiées des données existantes (par exemple, en faisant pivoter les images, en changeant la luminosité). L'augmentation des données vise à améliorer la généralisation et la robustesse du modèle, tandis que le nettoyage des données se concentre sur l'amélioration de la qualité des données d'origine. Pour en savoir plus, consultez le Guide ultime de l'augmentation des données.

Le nettoyage des données est une pratique fondamentale, souvent itérative, qui améliore considérablement la fiabilité et les performances des systèmes d'intelligence artificielle en garantissant que les données sous-jacentes sont saines. Des outils tels que la bibliothèque Pandas sont couramment utilisés pour la manipulation des données et les tâches de nettoyage dans les flux de travail de ML basés sur Python. Garantir la qualité des données par un nettoyage rigoureux est essentiel pour développer une IA fiable, en particulier lorsque l'on travaille avec des tâches complexes de vision artificielle (CV) ou des ensembles de données de référence à grande échelle tels que COCO ou ImageNet. Des plateformes comme Ultralytics HUB peuvent aider à gérer et à maintenir des ensembles de données de haute qualité tout au long du cycle de vie du projet.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers