Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Prétraitement des données

Maîtrisez le prétraitement des données pour l'apprentissage automatique. Apprenez des techniques telles que le nettoyage, la mise à l'échelle et l'encodage pour améliorer la précision et les performances du modèle.

Le prétraitement des données est la phase initiale critique du pipeline d'apprentissage automatique, au cours de laquelle les données brutes sont transformées en un format propre et compréhensible pour les algorithmes. format propre et compréhensible pour les algorithmes. Les données du monde réel sont souvent incomplètes, incohérentes et truffées d'erreurs ou de valeurs aberrantes. d'erreurs ou de valeurs aberrantes. Si un modèle est entraîné sur des données aussi défectueuses, la modélisation prédictive qui en résultera produira vraisemblablement des erreurs. prédictive qui en résultera produira probablement des résultats inexacts, un phénomène souvent appelé "garbage in, garbage out". En s'attaquant systématiquement à ces problèmes, le prétraitement systématiquement ces problèmes, le prétraitement garantit que les que les données d'apprentissage sont de haute qualité, ce qui est essentiel pour obtenir une précision et une stabilité optimales du modèle. pour obtenir une précision et une stabilité optimales du modèle.

Techniques de base du prétraitement

Les étapes spécifiques du prétraitement varient en fonction du type de données (texte, images ou données tabulaires), mais elles comprennent généralement plusieurs tâches fondamentales. mais comprennent généralement plusieurs tâches fondamentales.

  • Nettoyage des données: Il s'agit de le traitement des valeurs manquantes, la correction des données bruyantes et la résolution des incohérences. Les techniques peuvent inclure l'imputation les entrées manquantes à l'aide de moyens statistiques ou la suppression complète des enregistrements corrompus à l'aide d'outils tels que le Pandas.
  • Normalisation et mise à l'échelle : Les algorithmes sont souvent peu performants lorsque les caractéristiques ont des échelles très différentes (par exemple, l'âge par rapport au revenu). La normalisation ajuste les colonnes numériques à une échelle commune, telle que 0 à 1, empêchant les grandes valeurs de dominer le processus de descente du gradient. processus de descente de gradient. Pour en savoir plus sur les stratégies de mise à l'échelle dans la Scikit-learn.
  • Encodage : Les modèles d'apprentissage automatique nécessitent généralement des données numériques. Les données catégorielles (telles que "rouge", "vert", "bleu") doivent être converties en nombres à l'aide de méthodes telles que l'encodage à un coup ou l'encodage par étiquette. l'encodage à un coup ou l'encodage d'étiquettes l'encodage d'étiquettes.
  • Réduction de la dimensionnalité : Techniques telles que l'analyse en composantes principales (ACP) réduisent le nombre de variables d'entrée, en ne conservant que les informations les plus essentielles afin d'éviter le surajustement et d'accélérer l'apprentissage. d'éviter le surajustement et d'accélérer l'apprentissage.
  • Redimensionnement des images : En vision artificielle (CV), les images doivent souvent être être redimensionnées à une dimension fixe (par exemple 640x640 pixels) pour correspondre à la couche d'entrée d'un réseau neuronal convolutionnel (CNN). réseau neuronal convolutif (CNN).

Applications concrètes

Le prétraitement des données est omniprésent dans tous les secteurs d'activité et constitue l'épine dorsale des systèmes d'intelligence artificielle fiables.

  1. Analyse d'images médicales: Lors de la détection d'anomalies dans les IRM ou les tomodensitogrammes, le prétraitement est essentiel. Le contraste et la résolution des images brutes varient selon la machine utilisée. Le prétraitement normalise l'intensité des pixels et redimensionne les images pour que l'agent d'intelligence artificielle se concentre sur les caractéristiques pathologiques plutôt que sur les symptômes. l 'agent d'intelligence artificielle se concentre sur les caractéristiques pathologiques plutôt que sur les artefacts techniques. pathologiques plutôt que sur les artefacts techniques. Voir, par exemple, comment les chercheurs utilisent YOLO11 pour la détection des tumeurs pour améliorer la précision du diagnostic.
  2. Détection des fraudes financières : Dans le secteur bancaire, les journaux de transactions sont souvent désordonnés et déséquilibrés. Le prétraitement consiste à nettoyer les erreurs d'horodatage et à normaliser les montants des transactions. Il s'agit également, et c'est essentiel, de équilibrer l'ensemble des données - puisque la fraude est rare - en utilisant des techniques d'échantillonnage pour s'assurer que le modèle de détection d'anomalies identifie effectivement les transactions. d'échantillonnage pour que le modèle de détection d'anomalie identifie activités suspectes. IBM explique comment la préparation des données des données supporte ces analyses critiques pour l'entreprise.

Prétraitement avec Ultralytics YOLO

Les frameworks modernes automatisent souvent des parties importantes du pipeline de prétraitement. Lorsque l'on utilise des YOLO11des tâches telles que le redimensionnement de l'image, la mise à l'échelle des valeurs des pixels et le formatage des étiquettes sont gérées en interne au cours du processus d'apprentissage. sont gérées en interne pendant le processus d'apprentissage. Cela permet aux développeurs de se concentrer sur des tâches de plus haut niveau telles que l 'évaluation et le déploiement du modèle.

L'exemple suivant montre comment YOLO11 gère automatiquement le redimensionnement des images via la fonction imgsz argument pendant la formation :

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model on the COCO8 dataset.
# The 'imgsz' argument triggers automatic preprocessing to resize inputs to 640px.
model.train(data="coco8.yaml", epochs=5, imgsz=640)

Différencier des concepts connexes

Il est utile de distinguer le prétraitement des données des termes similaires dans le flux de travail de l'apprentissage automatique :

  • vs. l'augmentation des données: Alors que le le prétraitement formate les données pour les rendre utilisables (par exemple, redimensionnement), l'augmentation consiste à créer de nouvelles variations synthétiques des données existantes (par exemple, rotation, retournement) afin d'accroître la diversité de l'ensemble des données et d'améliorer la qualité des données. nouvelles variations synthétiques de données existantes (par exemple, rotation, retournement) afin d'accroître la diversité et la robustesse de l'ensemble de données. robustesse. Pour en savoir plus, consultez notre guide sur l'augmentation des données.
  • par rapport à l'ingénierie des caractéristiques: Le prétraitement se concentre sur le nettoyage et le formatage des données brutes. L'ingénierie des caractéristiques est une étape plus créative qui consiste à de dériver de nouvelles variables significatives à partir de ces données (par exemple, calculer le "prix au m²" à partir du "prix" et de la "surface") afin d'améliorer la qualité des données. de "prix" et de "surface") afin d'améliorer les performances du modèle. performance du modèle.
  • vs. étiquetage des données: L'étiquetage est le processus manuel ou automatisé d'annotation des données (comme le dessin de des boîtes de délimitation) afin de créer une vérité de terrain. Le prétraitement prépare ces images étiquetées et ces annotations pour le réseau neuronal. réseau neuronal.

En maîtrisant le prétraitement des données, les ingénieurs jettent les bases de projets d'IA réussis. projets d'IA réussis, en s'assurant que les sophistiqués comme YOLO11 et le futur YOLO26 puissent donner leur pleine mesure. Pour cela, il faut la gestion des ensembles de données et l'automatisation de ces flux de travail, la Ultralytics Platform offre un environnement unifié pour rationaliser le parcours des données brutes au modèle déployé. des données brutes au modèle déployé.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant