Prétraitement des données
Maîtrisez le prétraitement des données pour l'apprentissage automatique. Apprenez des techniques telles que le nettoyage, la mise à l'échelle et l'encodage pour améliorer la précision et les performances du modèle.
Le prétraitement des données est une étape cruciale du pipeline d'apprentissage automatique (ML) qui consiste à nettoyer, transformer et organiser les données brutes afin de les rendre aptes à l'entraînement et à la construction de modèles. Les données brutes issues du monde réel sont souvent incomplètes, incohérentes et peuvent contenir des erreurs. Le prétraitement convertit ces données désordonnées en un format propre et bien structuré, ce qui est essentiel pour qu'un modèle apprenne efficacement. La qualité des prédictions d'un modèle dépend fortement de la qualité des données sur lesquelles il est entraîné, ce qui fait du prétraitement des données une pratique fondamentale pour atteindre une précision élevée et des performances fiables dans les systèmes d'IA.
Tâches clés du prétraitement des données
Le prétraitement des données est un terme général qui englobe diverses techniques de préparation des données. Les étapes spécifiques dépendent de l'ensemble de données et de la tâche de ML, mais les tâches courantes comprennent :
- Nettoyage des données : Il s'agit du processus d'identification et de correction ou de suppression des erreurs, des incohérences et des valeurs manquantes d'un ensemble de données. Cela peut impliquer de compléter les données manquantes à l'aide de méthodes statistiques ou de supprimer les entrées en double. Des données propres sont la pierre angulaire de tout modèle fiable.
- Transformation des données : Cela implique de modifier l'échelle ou la distribution des données. Une technique courante est la normalisation, qui met à l'échelle les caractéristiques numériques dans une plage standard (par exemple, de 0 à 1) pour empêcher les caractéristiques avec des échelles plus grandes de dominer le processus d'apprentissage. Vous pouvez en apprendre davantage sur les différentes méthodes de mise à l'échelle dans la documentation de prétraitement de scikit-learn.
- Ingénierie des caractéristiques: Il s'agit du processus créatif de création de nouvelles caractéristiques à partir de celles existantes afin d'améliorer les performances du modèle. Cela pourrait impliquer de combiner des caractéristiques, de les décomposer ou d'utiliser la connaissance du domaine pour extraire des informations plus significatives. Un concept connexe est l'extraction de caractéristiques, qui réduit automatiquement la dimensionnalité des données.
- Encodage des données catégorielles : De nombreux algorithmes de ML nécessitent une entrée numérique. Le prétraitement implique souvent la conversion de données catégorielles (comme les étiquettes textuelles) en un format numérique grâce à des techniques telles que l'encodage one-hot.
- Redimensionnement et augmentation : En vision par ordinateur (CV), le prétraitement comprend le redimensionnement des images à une dimension uniforme. Il peut également être suivi d'une augmentation des données, qui élargit artificiellement l'ensemble de données en créant des versions modifiées des images.
Applications réelles de l'IA/ML
Le prétraitement des données est une exigence universelle dans tous les domaines de l'IA. Son application est essentielle au succès des tâches simples comme des tâches complexes.
- Analyse d’images médicales : Avant qu’un modèle YOLO puisse être entraîné pour détecter les tumeurs dans les images IRM d’un ensemble de données comme l’ensemble de données sur les tumeurs cérébrales, les images doivent être prétraitées. Cela implique de normaliser les valeurs d’intensité des pixels pour tenir compte des différences dans l’équipement d’imagerie, de redimensionner toutes les images à une taille d’entrée cohérente requise par le backbone du modèle et de nettoyer l’ensemble de données pour supprimer les fichiers corrompus ou les exemples mal étiquetés. Cela garantit que le réseau neuronal convolutif (CNN) apprend les véritables caractéristiques pathologiques d’un modèle plutôt que les variations dans l’imagerie. Vous pouvez en savoir plus à ce sujet dans notre blog sur l’utilisation de YOLO pour la détection de tumeurs.
- Prévision de vente au détail basée sur l'IA : Pour un modèle qui prédit la demande des clients dans le commerce de détail, les données de vente brutes contiennent souvent des enregistrements de transactions manquants, des noms de produits incohérents et des caractéristiques sur des échelles très différentes (par exemple, « prix de l'article » par rapport au « nombre d'articles vendus »). Le prétraitement consiste ici à imputer les chiffres de vente manquants, à normaliser les noms de produits et à normaliser les caractéristiques numériques afin que l'algorithme de modélisation prédictive puisse évaluer efficacement l'importance de chaque facteur. Un aperçu du prétraitement pour les entreprises met en évidence ces étapes.
Prétraitement des données vs. Concepts connexes
Il est utile de différencier le prétraitement des données des autres termes de gestion des données connexes.
- Nettoyage des données : Comme mentionné, le nettoyage des données est un sous-ensemble du prétraitement des données. Alors que le prétraitement est l'ensemble du processus de préparation des données pour un modèle, le nettoyage se concentre spécifiquement sur la correction des erreurs, la gestion des valeurs manquantes et la suppression des incohérences dans l'ensemble de données brutes.
- Augmentation des données : L'augmentation des données est une technique utilisée pour augmenter artificiellement la taille des données d'entraînement. Bien qu'elle fasse partie de la préparation des données pour l'entraînement, elle est généralement appliquée après que les étapes de prétraitement initial telles que le nettoyage et le redimensionnement ont déjà été effectuées sur l'ensemble de données original. L'objectif de l'augmentation est d'améliorer la généralisation du modèle, tandis que le prétraitement vise à rendre les données originales utilisables.
- Analyse de données : L'analyse de données est un domaine beaucoup plus vaste qui implique l'examen d'ensembles de données pour tirer des conclusions et soutenir la prise de décision. Le prétraitement des données est la première étape fondamentale au sein d'un flux de travail d'analyse de données, qui comprend également l'analyse exploratoire des données (EDA), la modélisation et la visualisation des données.
Des plateformes comme Ultralytics HUB peuvent aider à gérer les ensembles de données et à rationaliser le cycle de vie du ML, de la préparation des données au déploiement du modèle. Le guide sur le prétraitement des données annotées fournit d'autres informations pratiques.