Prétraitement des données

Prétraitement des données de référence pour l'apprentissage automatique. Apprenez des techniques telles que le nettoyage, la mise à l'échelle et l'encodage pour améliorer la précision et les performances des modèles.

Le prétraitement des données est une étape cruciale dans le pipeline de l'apprentissage automatique qui implique le nettoyage, la transformation et l'organisation des données brutes afin de les rendre aptes à l'entraînement et à la construction de modèles. Les données brutes provenant du monde réel sont souvent incomplètes, incohérentes et peuvent contenir des erreurs. Le prétraitement convertit ces données désordonnées en un format propre et bien structuré, ce qui est essentiel pour qu'un modèle puisse apprendre efficacement. La qualité des prédictions d'un modèle dépend fortement de la qualité des données sur lesquelles il est formé, ce qui fait du prétraitement des données une pratique fondamentale pour obtenir une grande précision et des performances fiables dans les systèmes d'intelligence artificielle.

Tâches clés du prétraitement des données

Le prétraitement des données est un terme général qui englobe diverses techniques de préparation des données. Les étapes spécifiques dépendent de l'ensemble de données et de la tâche de ML, mais les tâches communes comprennent :

Nettoyage des données: Il s'agit du processus d'identification et de correction ou de suppression des erreurs, des incohérences et des valeurs manquantes d'un ensemble de données. Il peut s'agir de compléter les données manquantes à l'aide de méthodes statistiques ou de supprimer les entrées en double. Des données propres sont la pierre angulaire de tout modèle fiable.
Transformation des données: Il s'agit de modifier l'échelle ou la distribution des données. Une technique courante est la normalisationqui met à l'échelle les caractéristiques numériques dans un intervalle standard (par exemple, 0 à 1) afin d'éviter que les caractéristiques ayant des échelles plus grandes ne dominent le processus d'apprentissage. Pour en savoir plus sur les différentes méthodes de mise à l'échelle, consultez la documentation de scikit-learn sur le prétraitement.
Ingénierie des caractéristiques: Il s'agit du processus créatif consistant à créer de nouvelles caractéristiques à partir des caractéristiques existantes afin d'améliorer les performances du modèle. Il peut s'agir de combiner des caractéristiques, de les décomposer ou d'utiliser la connaissance du domaine pour extraire des informations plus significatives. Un concept connexe est l l'extraction de caractéristiquesqui réduit automatiquement la dimensionnalité des données.
Encodage des données catégorielles : De nombreux algorithmes de ML nécessitent des données numériques. Le prétraitement consiste souvent à convertir des données catégorielles (telles que des étiquettes de texte) en un format numérique grâce à des techniques telles que l'encodage à une touche.
Redimensionnement et augmentation : Dans le domaine de la vision par ordinateur, le prétraitement comprend le redimensionnement des images à une dimension uniforme. Il peut également être suivi par l'augmentation des donnéesqui élargit artificiellement l'ensemble de données en créant des versions modifiées des images.

Applications IA/ML dans le monde réel

Le prétraitement des données est une exigence universelle dans tous les domaines de l'intelligence artificielle. Son application est essentielle à la réussite des tâches simples et complexes.

Analyse d'images médicales : Avant qu'un modèle YOLO puisse être entraîné à détecter des tumeurs dans des IRM à partir d'un ensemble de données comme celui des tumeurs cérébrales, les images doivent être prétraitées. Il s'agit de normaliser les valeurs d'intensité des pixels pour tenir compte des différences entre les équipements de balayage, de redimensionner toutes les images à une taille d'entrée cohérente requise par l'épine dorsale du modèle et de nettoyer l'ensemble de données pour supprimer les fichiers corrompus ou les exemples mal étiquetés. Le réseau neuronal convolutionnel (CNN) apprend ainsi les véritables caractéristiques pathologiques d'un modèle plutôt que les variations de l'imagerie. Pour en savoir plus, consultez notre blog sur l'utilisation de YOLO pour la détection des tumeurs.
Prévisions de vente au détail basées sur l'IA : Pour un modèle qui prédit la demande des clients dans le commerce de détail, les données de vente brutes contiennent souvent des enregistrements de transaction manquants, des noms de produits incohérents et des caractéristiques sur des échelles très différentes (par exemple, "prix de l'article" par rapport au "nombre d'articles vendus"). Le prétraitement consiste ici à imputer les chiffres de vente manquants, à normaliser les noms de produits et à normaliser les caractéristiques numériques afin que l'algorithme de modélisation prédictive puisse peser efficacement l'importance de chaque facteur. Une vue d'ensemble du prétraitement pour les entreprises met en évidence ces étapes.