Prétraitement des données
Maîtrisez le prétraitement des données pour l'apprentissage automatique. Apprenez des techniques telles que le nettoyage, la mise à l'échelle et l'encodage pour améliorer la précision et les performances du modèle.
Le prétraitement des données est la phase initiale critique du pipeline d'apprentissage automatique, au cours de laquelle les données brutes sont transformées en un format propre et compréhensible pour les algorithmes.
format propre et compréhensible pour les algorithmes. Les données du monde réel sont souvent incomplètes, incohérentes et truffées d'erreurs ou de valeurs aberrantes.
d'erreurs ou de valeurs aberrantes. Si un modèle est entraîné sur des données aussi défectueuses, la modélisation prédictive qui en résultera produira vraisemblablement des erreurs.
prédictive qui en résultera produira probablement des
résultats inexacts, un phénomène souvent appelé "garbage in, garbage out". En s'attaquant systématiquement à ces problèmes, le prétraitement
systématiquement ces problèmes, le prétraitement garantit que les
que les données d'apprentissage sont de haute qualité, ce qui est essentiel pour obtenir une précision et une stabilité optimales du modèle.
pour obtenir une précision et une stabilité optimales du modèle.
Techniques de base du prétraitement
Les étapes spécifiques du prétraitement varient en fonction du type de données (texte, images ou données tabulaires), mais elles comprennent généralement plusieurs tâches fondamentales.
mais comprennent généralement plusieurs tâches fondamentales.
-
Nettoyage des données: Il s'agit de
le traitement des valeurs manquantes, la correction des données bruyantes et la résolution des incohérences. Les techniques peuvent inclure l'imputation
les entrées manquantes à l'aide de moyens statistiques ou la suppression complète des enregistrements corrompus à l'aide d'outils tels que le
Pandas.
-
Normalisation et mise à l'échelle :
Les algorithmes sont souvent peu performants lorsque les caractéristiques ont des échelles très différentes (par exemple, l'âge par rapport au revenu). La normalisation
ajuste les colonnes numériques à une échelle commune, telle que 0 à 1, empêchant les grandes valeurs de dominer le processus de descente du gradient.
processus de descente de gradient. Pour en savoir plus
sur les stratégies de mise à l'échelle dans la
Scikit-learn.
-
Encodage : Les modèles d'apprentissage automatique nécessitent généralement des données numériques. Les données catégorielles (telles que
"rouge", "vert", "bleu") doivent être converties en nombres à l'aide de méthodes telles que l'encodage à un coup ou l'encodage par étiquette.
l'encodage à un coup ou l'encodage d'étiquettes
l'encodage d'étiquettes.
-
Réduction de la dimensionnalité : Techniques telles que
l'analyse en composantes principales (ACP)
réduisent le nombre de variables d'entrée, en ne conservant que les informations les plus essentielles afin d'éviter le surajustement et d'accélérer l'apprentissage.
d'éviter le surajustement et d'accélérer l'apprentissage.
-
Redimensionnement des images : En
vision artificielle (CV), les images doivent souvent être
être redimensionnées à une dimension fixe (par exemple 640x640 pixels) pour correspondre à la couche d'entrée d'un réseau neuronal convolutionnel (CNN).
réseau neuronal convolutif (CNN).
Applications concrètes
Le prétraitement des données est omniprésent dans tous les secteurs d'activité et constitue l'épine dorsale des systèmes d'intelligence artificielle fiables.
-
Analyse d'images médicales:
Lors de la détection d'anomalies dans les IRM ou les tomodensitogrammes, le prétraitement est essentiel. Le contraste et la résolution des images brutes varient
selon la machine utilisée. Le prétraitement normalise l'intensité des pixels et redimensionne les images pour que l'agent d'intelligence artificielle se concentre sur les caractéristiques pathologiques plutôt que sur les symptômes.
l 'agent d'intelligence artificielle se concentre sur les caractéristiques pathologiques plutôt que sur les artefacts techniques.
pathologiques plutôt que sur les artefacts techniques. Voir, par exemple, comment les chercheurs
utilisent YOLO11 pour la détection des tumeurs
pour améliorer la précision du diagnostic.
-
Détection des fraudes financières : Dans le secteur bancaire, les journaux de transactions sont souvent désordonnés et déséquilibrés.
Le prétraitement consiste à nettoyer les erreurs d'horodatage et à normaliser les montants des transactions. Il s'agit également, et c'est essentiel, de
équilibrer l'ensemble des données - puisque la fraude est rare - en utilisant des techniques d'échantillonnage pour s'assurer que le modèle de détection d'anomalies identifie effectivement les transactions.
d'échantillonnage pour que le modèle de détection d'anomalie identifie
activités suspectes. IBM explique comment la préparation des données
des données supporte ces analyses critiques pour l'entreprise.
Prétraitement avec Ultralytics YOLO
Les frameworks modernes automatisent souvent des parties importantes du pipeline de prétraitement. Lorsque l'on utilise des
YOLO11des tâches telles que le redimensionnement de l'image, la mise à l'échelle des valeurs des pixels et le formatage des étiquettes sont gérées en interne au cours du processus d'apprentissage.
sont gérées en interne pendant le processus d'apprentissage. Cela permet aux développeurs de se concentrer sur des tâches de plus haut niveau telles que
l 'évaluation et le déploiement du modèle.
L'exemple suivant montre comment YOLO11 gère automatiquement le redimensionnement des images via la fonction imgsz argument
pendant la formation :
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model on the COCO8 dataset.
# The 'imgsz' argument triggers automatic preprocessing to resize inputs to 640px.
model.train(data="coco8.yaml", epochs=5, imgsz=640)
Différencier des concepts connexes
Il est utile de distinguer le prétraitement des données des termes similaires dans le flux de travail de l'apprentissage automatique :
-
vs. l'augmentation des données: Alors que le
le prétraitement formate les données pour les rendre utilisables (par exemple, redimensionnement), l'augmentation consiste à créer de nouvelles variations synthétiques des données existantes (par exemple, rotation, retournement) afin d'accroître la diversité de l'ensemble des données et d'améliorer la qualité des données.
nouvelles variations synthétiques de données existantes (par exemple, rotation, retournement) afin d'accroître la diversité et la robustesse de l'ensemble de données.
robustesse. Pour en savoir plus, consultez notre
guide sur l'augmentation des données.
-
par rapport à l'ingénierie des caractéristiques:
Le prétraitement se concentre sur le nettoyage et le formatage des données brutes. L'ingénierie des caractéristiques est une étape plus créative qui consiste à
de dériver de nouvelles variables significatives à partir de ces données (par exemple, calculer le "prix au m²" à partir du "prix" et de la "surface") afin d'améliorer la qualité des données.
de "prix" et de "surface") afin d'améliorer les performances du modèle.
performance du modèle.
-
vs. étiquetage des données: L'étiquetage est le
processus manuel ou automatisé d'annotation des données (comme le dessin de
des boîtes de délimitation) afin de créer une vérité de terrain.
Le prétraitement prépare ces images étiquetées et ces annotations pour le réseau neuronal.
réseau neuronal.
En maîtrisant le prétraitement des données, les ingénieurs jettent les bases de projets d'IA réussis.
projets d'IA réussis, en s'assurant que les
sophistiqués comme YOLO11 et le futur YOLO26 puissent donner leur pleine mesure. Pour cela, il faut
la gestion des ensembles de données et l'automatisation de ces flux de travail, la
Ultralytics Platform offre un environnement unifié pour rationaliser le parcours des données brutes au modèle déployé.
des données brutes au modèle déployé.