IA axée sur les données
Découvrez l'IA centrée sur les données, l'approche consistant à améliorer la qualité des ensembles de données pour améliorer les performances des modèles. Découvrez pourquoi de meilleures données, et pas seulement un meilleur modèle, sont essentielles pour une IA robuste.
L'IA centrée sur les données est une philosophie et une méthodologie de développement de l'apprentissage automatique (ML) qui met l'accent sur l'amélioration de la
qualité des données d'entraînement plutôt que de se concentrer uniquement sur l'optimisation de l'architecture du modèle. Dans les approches traditionnelles centrées sur le modèle
, l'ensemble de données est souvent traité comme une entrée statique, tandis que les ingénieurs passent des semaines à ajuster les hyperparamètres ou à
concevoir des structures de réseaux neuronaux complexes.
À l'inverse, une approche centrée sur les données traite le code du modèle comme une base de référence fixe et oriente les efforts d'ingénierie vers le
nettoyage systématique des données, la cohérence de l'étiquetage et l'
augmentation afin d'améliorer les performances globales du système. Ce changement reconnaît que pour de nombreuses applications pratiques, le
principe « garbage in, garbage out » (si l'on entre des données erronées, on obtient des résultats erronés) est le principal obstacle à l'obtention d'une grande précision.
La philosophie de base : La qualité avant la quantité
Le principe fondamental de l'IA centrée sur les données est qu'un ensemble de données plus petit et de haute qualité donne souvent de meilleurs résultats qu'un
ensemble massif et bruité. Des figures de proue dans ce domaine, telles qu'Andrew Ng,
ont défendu ce changement, arguant que la communauté de l'IA a historiquement survalorisé l'innovation algorithmique. Pour
construire des systèmes robustes, les ingénieurs doivent s'engager dans des
processus d'apprentissage actifs où ils identifient de manière itérative
les modes de défaillance et les corrigent en affinant l'ensemble de données. Cela implique un
étiquetage précis des données, la suppression des doublons et le traitement des cas limites
que le modèle a du mal à classify.
Les principales activités de ce flux de travail comprennent :
-
Analyse systématique des erreurs : au lieu de se fier uniquement à des mesures agrégées telles que la
précision, les développeurs analysent des cas spécifiques où
le modèle échoue, comme la détection de petits objets dans des
images aériennes, et collectent des données ciblées pour
remédier à ces faiblesses.
-
Cohérence des étiquettes : il est essentiel de veiller à ce que tous les annotateurs suivent les mêmes directives. Des outils tels que
Label Studio aident les équipes à gérer la qualité des annotations afin d'éviter les signaux contradictoires
qui perturbent le processus de formation.
-
Augmentation des données : les développeurs utilisent des
techniques d'augmentation des données pour
élargir artificiellement la diversité de l'ensemble de données. En appliquant des transformations telles que la rotation, la mise à l'échelle et l'ajustement des couleurs,
le modèle apprend à mieux généraliser à des environnements inconnus.
-
Génération de données synthétiques : lorsque les données réelles sont rares, les équipes peuvent générer
des données synthétiques à l'aide de moteurs de simulation tels que
NVIDIA afin de combler les lacunes dans l'ensemble de données, garantissant ainsi que
les classes rares sont correctement représentées.
Applications concrètes
L'adoption d'une approche centrée sur les données est essentielle dans les secteurs où
la précision de la vision par ordinateur est non négociable.
-
Agriculture de précision : dans le domaine de l'
IA appliquée à l'agriculture, la distinction entre une
culture saine et une culture atteinte d'une maladie à un stade précoce repose souvent sur des indices visuels subtils. Une équipe centrée sur les données se concentrerait sur la
création d'un
ensemble de données de vision par ordinateur de haute qualité
qui inclurait spécifiquement des exemples de maladies dans diverses conditions d'éclairage et à différents stades de croissance. Cela garantit que
le modèle n'apprend pas à associer des caractéristiques d'arrière-plan non pertinentes à la classe de maladies, un problème courant connu sous le nom d'
apprentissage par raccourci.
-
Inspection industrielle : dans le domaine de l'
IA appliquée à la fabrication, les défauts peuvent ne se produire
qu'une fois sur dix mille unités. Un modèle d'apprentissage standard pourrait ignorer ces événements rares en raison du déséquilibre des classes.
En employant des
stratégies de détection des anomalies et en recherchant ou en synthétisant manuellement
davantage d'images de ces défauts spécifiques, les ingénieurs s'assurent que le système atteint les taux de rappel élevés
requis par les normes de contrôle qualité
définies par des organisations telles que l'ISO.
Mise en œuvre de techniques centrées sur les données avec Ultralytics
Vous pouvez appliquer des techniques centrées sur les données, telles que l'augmentation, directement dans votre pipeline de formation. Le code Python
suivant
montre comment charger un modèle YOLO26 et le former
avec des paramètres d'augmentation agressifs afin d'améliorer sa robustesse face aux variations.
from ultralytics import YOLO
# Load a YOLO26 model (recommended for new projects)
model = YOLO("yolo26n.pt")
# Train with specific data augmentations to improve generalization
# 'degrees' adds rotation, 'mixup' blends images, and 'copy_paste' adds object instances
results = model.train(
data="coco8.yaml",
epochs=10,
degrees=15.0, # Random rotation up to +/- 15 degrees
mixup=0.1, # Apply MixUp augmentation with 10% probability
copy_paste=0.1, # Use Copy-Paste augmentation
)
Distinguer les concepts apparentés
Pour bien comprendre l'IA centrée sur les données, il faut la différencier des termes similaires utilisés dans l'écosystème de l'apprentissage automatique.
-
IA centrée sur le modèle : il s'agit de l'approche inverse, dans laquelle l'ensemble de données est maintenu constant et les améliorations sont recherchées par le biais d'un processus de modélisation.
et les améliorations sont recherchées par
l 'ajustement des hyperparamètres ou des changements
d'architecture. Bien qu'elle soit nécessaire pour repousser les limites de l'état de l'art dans les articles de recherche trouvés sur
IEEE Xplore, elle donne souvent des résultats décroissants en
production par rapport au nettoyage des données.
-
Big Data : le terme « Big Data » fait principalement référence au
volume, à la vitesse et à la variété des informations. L'IA centrée sur les données ne nécessite pas nécessairement des données « volumineuses », mais plutôt des données « intelligentes ».
Comme le souligne la communauté de l'IA centrée sur les données, un petit ensemble de données parfaitement étiqueté est souvent plus performant qu'un ensemble massif et bruité.
-
Analyse exploratoire des données (EDA) :
La visualisation des données et l'EDA sont des étapes
du flux de travail centré sur les données. L'EDA aide à identifier les incohérences à l'aide d'outils tels que
Pandas, mais l'IA centrée sur les données englobe l'ensemble du cycle de vie technique de la
correction de ces problèmes afin d'améliorer le
moteur d'inférence.
-
MLOps :
Les opérations d'apprentissage automatique (MLOps)
fournissent l'infrastructure et les pipelines nécessaires à la gestion du cycle de vie de la production IA. L'IA centrée sur les données est la
méthodologie appliquée au sein des pipelines MLOps afin de garantir que les données qui les traversent créent des modèles fiables.
Des plateformes telles que Weights & Biases sont
souvent utilisées pour track des changements de données sur les métriques des modèles.