Prétraitement des données
Prétraitement des données de référence pour l'apprentissage automatique. Apprenez des techniques telles que le nettoyage, la mise à l'échelle et l'encodage pour améliorer la précision et les performances des modèles.
Le prétraitement des données est une étape cruciale dans le pipeline de l'apprentissage automatique qui implique le nettoyage, la transformation et l'organisation des données brutes afin de les rendre aptes à l'entraînement et à la construction de modèles. Les données brutes provenant du monde réel sont souvent incomplètes, incohérentes et peuvent contenir des erreurs. Le prétraitement convertit ces données désordonnées en un format propre et bien structuré, ce qui est essentiel pour qu'un modèle puisse apprendre efficacement. La qualité des prédictions d'un modèle dépend fortement de la qualité des données sur lesquelles il est formé, ce qui fait du prétraitement des données une pratique fondamentale pour obtenir une grande précision et des performances fiables dans les systèmes d'intelligence artificielle.
Tâches clés du prétraitement des données
Le prétraitement des données est un terme général qui englobe diverses techniques de préparation des données. Les étapes spécifiques dépendent de l'ensemble de données et de la tâche de ML, mais les tâches communes comprennent :
- Nettoyage des données: Il s'agit du processus d'identification et de correction ou de suppression des erreurs, des incohérences et des valeurs manquantes d'un ensemble de données. Il peut s'agir de compléter les données manquantes à l'aide de méthodes statistiques ou de supprimer les entrées en double. Des données propres sont la pierre angulaire de tout modèle fiable.
- Transformation des données: Il s'agit de modifier l'échelle ou la distribution des données. Une technique courante est la normalisationqui met à l'échelle les caractéristiques numériques dans un intervalle standard (par exemple, 0 à 1) afin d'éviter que les caractéristiques ayant des échelles plus grandes ne dominent le processus d'apprentissage. Pour en savoir plus sur les différentes méthodes de mise à l'échelle, consultez la documentation de scikit-learn sur le prétraitement.
- Ingénierie des caractéristiques: Il s'agit du processus créatif consistant à créer de nouvelles caractéristiques à partir des caractéristiques existantes afin d'améliorer les performances du modèle. Il peut s'agir de combiner des caractéristiques, de les décomposer ou d'utiliser la connaissance du domaine pour extraire des informations plus significatives. Un concept connexe est l l'extraction de caractéristiquesqui réduit automatiquement la dimensionnalité des données.
- Encodage des données catégorielles : De nombreux algorithmes de ML nécessitent des données numériques. Le prétraitement consiste souvent à convertir des données catégorielles (telles que des étiquettes de texte) en un format numérique grâce à des techniques telles que l'encodage à une touche.
- Redimensionnement et augmentation : Dans le domaine de la vision par ordinateur, le prétraitement comprend le redimensionnement des images à une dimension uniforme. Il peut également être suivi par l'augmentation des donnéesqui élargit artificiellement l'ensemble de données en créant des versions modifiées des images.
Applications IA/ML dans le monde réel
Le prétraitement des données est une exigence universelle dans tous les domaines de l'intelligence artificielle. Son application est essentielle à la réussite des tâches simples et complexes.
- Analyse d'images médicales : Avant qu'un modèle YOLO puisse être entraîné à détecter des tumeurs dans des IRM à partir d'un ensemble de données comme celui des tumeurs cérébrales, les images doivent être prétraitées. Il s'agit de normaliser les valeurs d'intensité des pixels pour tenir compte des différences entre les équipements de balayage, de redimensionner toutes les images à une taille d'entrée cohérente requise par l'épine dorsale du modèle et de nettoyer l'ensemble de données pour supprimer les fichiers corrompus ou les exemples mal étiquetés. Le réseau neuronal convolutionnel (CNN) apprend ainsi les véritables caractéristiques pathologiques d'un modèle plutôt que les variations de l'imagerie. Pour en savoir plus, consultez notre blog sur l'utilisation de YOLO pour la détection des tumeurs.
- Prévisions de vente au détail basées sur l'IA : Pour un modèle qui prédit la demande des clients dans le commerce de détail, les données de vente brutes contiennent souvent des enregistrements de transaction manquants, des noms de produits incohérents et des caractéristiques sur des échelles très différentes (par exemple, "prix de l'article" par rapport au "nombre d'articles vendus"). Le prétraitement consiste ici à imputer les chiffres de vente manquants, à normaliser les noms de produits et à normaliser les caractéristiques numériques afin que l'algorithme de modélisation prédictive puisse peser efficacement l'importance de chaque facteur. Une vue d'ensemble du prétraitement pour les entreprises met en évidence ces étapes.
Prétraitement des données et concepts connexes
Il est utile de différencier le prétraitement des données des autres termes liés à la gestion des données.
- Nettoyage des données: Comme nous l'avons mentionné, le nettoyage des données est un sous-ensemble du prétraitement des données. Alors que le prétraitement est l'ensemble du processus de préparation des données pour un modèle, le nettoyage se concentre spécifiquement sur la correction des erreurs, le traitement des valeurs manquantes et la suppression des incohérences au sein de l'ensemble de données brutes.
- Augmentation des données: L'augmentation des données est une technique utilisée pour augmenter artificiellement la taille des données de formation. Bien qu'elle fasse partie de la préparation des données pour la formation, elle est généralement appliquée après que les étapes initiales de prétraitement, telles que le nettoyage et le redimensionnement, ont déjà été effectuées sur l'ensemble de données d'origine. L'objectif de l'augmentation est d'améliorer la généralisation du modèle, tandis que le prétraitement vise à rendre les données d'origine utilisables.
- L'analyse des données: L'analyse des données est un domaine beaucoup plus vaste qui consiste à examiner des ensembles de données pour en tirer des conclusions et faciliter la prise de décision. Le prétraitement des données est la première étape fondamentale d' un flux de travail d'analyse des données, qui comprend également l'analyse exploratoire des données (AED), la modélisation et la visualisation des données.
Des plateformes comme Ultralytics HUB peuvent aider à gérer les ensembles de données et à rationaliser le cycle de vie de la ML, de la préparation des données au déploiement du modèle. Le guide sur le prétraitement des données annotées fournit d'autres informations pratiques.