Glossaire

Prétraitement des données

Prétraitement des données de référence pour l'apprentissage automatique. Apprenez des techniques telles que le nettoyage, la mise à l'échelle et l'encodage pour améliorer la précision et les performances des modèles.

Le prétraitement des données comprend les techniques essentielles utilisées pour nettoyer, transformer et organiser les données brutes dans un format structuré et approprié avant qu'elles ne soient utilisées pour former des modèles d'apprentissage automatique. Les données brutes recueillies auprès de diverses sources sont souvent désordonnées et contiennent des valeurs manquantes, des incohérences, du bruit ou des erreurs. Le prétraitement permet de résoudre ces problèmes et d'améliorer la qualité des données, ce qui se traduit directement par une amélioration des performances, de la précision et de la fiabilité des modèles d'apprentissage automatique. Cette étape est fondamentale dans tout projet axé sur les données, y compris dans les domaines de l'intelligence artificielle (IA) et de la vision par ordinateur (VA).

Pourquoi le prétraitement des données est-il important ?

Le principe "garbage in, garbage out" s'applique fortement à l'apprentissage automatique. Les modèles apprennent des modèles directement à partir des données sur lesquelles ils sont formés. Si les données d'entrée sont défectueuses, le modèle apprendra des modèles incorrects ou non pertinents, ce qui entraînera de mauvaises prédictions et des résultats peu fiables. Des données de haute qualité et bien préparées sont cruciales pour construire des modèles efficaces, comme Ultralytics YOLO pour des tâches exigeantes telles que la détection d'objets. Un prétraitement adéquat des données apporte une contribution significative :

  • Amélioration de la précision du modèle : Des données propres et bien structurées permettent au modèle d'apprendre plus efficacement des modèles significatifs.
  • Amélioration de l'efficacité : Le prétraitement peut réduire les ressources informatiques nécessaires à la formation en simplifiant les données ou en réduisant leur dimensionnalité.
  • Réduction du surajustement : Le traitement du bruit et des valeurs aberrantes peut empêcher le modèle d'apprendre ces détails non pertinents, améliorant ainsi sa capacité à s'adapter à de nouvelles données et à éviter le surajustement.
  • Assurer la fiabilité : Un formatage cohérent des données permet d'obtenir un comportement plus stable et plus fiable du modèle lors de l'apprentissage et de l'inférence.

Techniques courantes de prétraitement des données

Diverses techniques sont appliquées lors du prétraitement des données, souvent en combinaison, en fonction du type de données et de la tâche spécifique de ML. Les principales techniques sont les suivantes

  • Nettoyage des données: Il s'agit d'identifier et de corriger les erreurs, de traiter les valeurs manquantes (par exemple, par imputation ou suppression) et de traiter les valeurs aberrantes ou les points de données bruyants. Des outils comme Pandas sont couramment utilisés à cette fin en Python.
  • Transformation des données : Cette étape permet de modifier les données dans un format plus approprié.
    • Mise à l'échelle : Des techniques telles que la normalisation (mise à l'échelle des données dans une plage, généralement de 0 à 1) ou la standardisation (mise à l'échelle des données pour obtenir une moyenne nulle et une variance unitaire) aident les algorithmes sensibles aux échelles des caractéristiques, tels que les modèles basés sur la descente de gradient. Pour en savoir plus sur les techniques de mise à l'échelle, consultez la documentation de Scikit-learn sur le prétraitement.
    • Encodage : Conversion des caractéristiques catégorielles (comme les étiquettes de texte) en représentations numériques (par exemple, codage à un point) que les modèles peuvent traiter.
  • Ingénierie des caractéristiques: Création de nouvelles caractéristiques, potentiellement plus informatives, à partir des caractéristiques existantes, afin d'améliorer les performances du modèle. Cela nécessite une connaissance du domaine et de la créativité.
  • Extraction de caractéristiques: L'extraction automatique d'un ensemble réduit de caractéristiques à partir des données d'origine tout en préservant les informations essentielles. Cette opération est souvent réalisée à l'aide de techniques telles que l'analyse en composantes principales (ACP).
  • Réduction de la dimensionnalité: Réduction du nombre de caractéristiques d'entrée afin de simplifier le modèle, de réduire le temps de formation et d'atténuer le risque de surajustement, ce qui est particulièrement important pour les données volumineuses (Big Data).
  • Prétraitement spécifique à l'image : Pour les tâches de vision par ordinateur, les étapes communes comprennent le redimensionnement des images à une dimension cohérente, la conversion des espaces de couleur (par exemple, BGR à RGB), l'ajustement de la luminosité ou du contraste, et l'application de filtres pour la réduction du bruit à l'aide de bibliothèques telles que OpenCV. Ultralytics fournit des conseils sur le prétraitement des données annotées pour les modèles YOLO.

Applications dans le monde réel

Le prétraitement des données est essentiel dans d'innombrables applications d'IA/ML :

  1. Analyse d'images médicales: Avant qu'un modèle d'IA puisse analyser des IRM ou des tomodensitogrammes pour détecter des anomalies telles que des tumeurs(exemple de l'ensemble de données sur les tumeurs cérébrales), les images doivent être prétraitées. Il s'agit souvent de réduire le bruit à l'aide de filtres, de normaliser l'intensité pour standardiser les niveaux de luminosité entre les différents scanners et machines, et d'enregistrer les images pour aligner plusieurs scanners. Ces étapes garantissent que le modèle reçoit des données cohérentes, ce qui améliore sa capacité à détecter avec précision les anomalies subtiles. Cela est essentiel pour les applications de l'IA dans le domaine de la santé.
  2. Véhicules autonomes: Les voitures autonomes s'appuient sur des capteurs tels que les caméras et le LiDAR. Les données brutes de ces capteurs nécessitent un prétraitement approfondi. Les images des caméras peuvent nécessiter un redimensionnement, une correction des couleurs et un ajustement de la luminosité pour tenir compte des différentes conditions d'éclairage. Les données du nuage de points LiDAR peuvent nécessiter un filtrage pour supprimer le bruit ou les points au sol. Ce prétraitement garantit que les systèmes de détection et de suivi des objets reçoivent des données propres et normalisées pour identifier les piétons, les véhicules et les obstacles de manière fiable, ce qui est essentiel pour la sécurité dans les applications d'IA dans l'automobile.

Prétraitement des données et concepts connexes

Il est utile de distinguer le prétraitement des données des termes qui lui sont étroitement liés :

  • Nettoyage des données et prétraitement des données: Le nettoyage des données est un sous-ensemble du prétraitement des données, spécifiquement axé sur l'identification et la correction des erreurs, des incohérences et des valeurs manquantes dans l'ensemble de données. Le prétraitement est plus large et englobe le nettoyage ainsi que la transformation, la mise à l'échelle et la manipulation des caractéristiques.
  • Augmentation des données et prétraitement des données: L'augmentation des données consiste à accroître artificiellement la taille et la diversité de l'ensemble de données de formation en créant des copies modifiées de données existantes (par exemple, en faisant pivoter ou en retournant des images). Bien que l'augmentation soit une partie essentielle de la préparation des données pour la formation, en particulier dans l'apprentissage profond, elle est généralement effectuée après les étapes de prétraitement initiales telles que le nettoyage et le redimensionnement. Explorez les conseils pour la formation de modèles, y compris les stratégies d'augmentation.
  • Ingénierie des caractéristiques et prétraitement des données: L'ingénierie des caractéristiques est le processus de création de nouvelles caractéristiques d'entrée à partir de caractéristiques existantes. Elle est souvent considérée comme une étape du processus plus large de prétraitement des données, visant à améliorer le pouvoir prédictif du modèle.
  • Étiquetage des données et prétraitement des données: L'étiquetage des données consiste à attribuer des étiquettes ou des annotations significatives (comme le dessin de boîtes de délimitation autour des objets) aux données brutes. Cette opération est essentielle pour les tâches d'apprentissage supervisé. L'étiquetage est une étape distincte qui intervient généralement avant ou parallèlement au prétraitement. Des étiquettes de haute qualité combinées à un prétraitement efficace sont cruciales pour l'apprentissage des modèles. Voir le guide Ultralytics Data Collection and Annotation pour plus de détails.

La gestion des ensembles de données et l'application des étapes de prétraitement peuvent être rationalisées en utilisant des plateformes comme Ultralytics HUB, qui offre des outils pour la gestion des ensembles de données et la formation des modèles.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers