Maîtrisez le nettoyage des données pour les projets d'IA et de ML. Apprenez des techniques pour corriger les erreurs, améliorer la qualité des données et optimiser efficacement les performances du modèle !
Le nettoyage des données est un processus essentiel qui consiste à détecter et à corriger (ou supprimer) les enregistrements corrompus, inexacts ou non pertinents d'un ensemble d'enregistrements, d'un tableau ou d'une base de données. Dans le domaine de l' intelligence artificielle (IA) et de l' apprentissage automatique (ML), cette étape est souvent considérée comme la partie la plus longue, mais aussi la plus essentielle, du flux de travail. Avant qu'un modèle tel que YOLO26 puisse apprendre efficacement à reconnaître des objets, les données d'entraînement doivent être nettoyées afin d'éviter le phénomène « Garbage In, Garbage Out » (si l'on entre des données erronées, on obtient des résultats erronés), où des données d'entrée de mauvaise qualité conduisent à des résultats peu fiables.
Les modèles de vision par ordinateur hautement performants dépendent fortement de la qualité des ensembles de données qu'ils utilisent. Si un ensemble de données contient des images mal étiquetées, des doublons ou des fichiers corrompus , le modèle aura du mal à généraliser les modèles, ce qui entraînera un surajustement ou une mauvaise précision d'inférence. Un nettoyage efficace des données améliore la fiabilité des modèles prédictifs et garantit que l'algorithme apprend à partir de signaux valides plutôt que de bruit.
Les praticiens utilisent diverses stratégies pour affiner leurs ensembles de données à l'aide d'outils tels que Pandas pour les données tabulaires ou des outils de vision spécialisés.
Le nettoyage des données est essentiel dans divers secteurs où l'IA est déployée.
Bien que souvent utilisés de manière interchangeable, le nettoyage des données est distinct du prétraitement des données. Le nettoyage des données consiste à corriger les erreurs et à supprimer les « mauvaises » données. En revanche, le prétraitement consiste à transformer des données propres en un format adapté au modèle, par exemple en redimensionnant les images, en les normalisant ou en augmentant les données pour accroître leur variété.
Les flux de travail modernes, tels que ceux disponibles sur la Ultralytics , intègrent des contrôles automatisés permettant d'identifier les images corrompues ou les incohérences dans les étiquettes avant le début de l'entraînement. Vous trouverez ci-dessous Python simple Python montrant comment vérifier et identifier les fichiers image corrompus à l'aide de la bibliothèque standard Pillow, une étape courante avant d'alimenter un modèle tel que YOLO26.
from pathlib import Path
from PIL import Image
def verify_images(dataset_path):
"""Iterates through a directory to identify corrupt images."""
for img_path in Path(dataset_path).glob("*.jpg"):
try:
with Image.open(img_path) as img:
img.verify() # Checks file integrity
except (OSError, SyntaxError):
print(f"Corrupt file found: {img_path}")
# Run verification on your dataset
verify_images("./coco8/images/train")