Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

IA axée sur les données

Découvrez l'IA centrée sur les données, l'approche consistant à améliorer la qualité des ensembles de données pour améliorer les performances des modèles. Découvrez pourquoi de meilleures données, et pas seulement un meilleur modèle, sont essentielles pour une IA robuste.

L'IA centrée sur les données est une philosophie et une méthodologie de développement de l'apprentissage automatique (ML) qui met l'accent sur l'amélioration de la qualité des données d'entraînement plutôt que de se concentrer uniquement sur l'optimisation de l'architecture du modèle. Dans les approches traditionnelles centrées sur le modèle , l'ensemble de données est souvent traité comme une entrée statique, tandis que les ingénieurs passent des semaines à ajuster les hyperparamètres ou à concevoir des structures de réseaux neuronaux complexes. À l'inverse, une approche centrée sur les données traite le code du modèle comme une base de référence fixe et oriente les efforts d'ingénierie vers le nettoyage systématique des données, la cohérence de l'étiquetage et l' augmentation afin d'améliorer les performances globales du système. Ce changement reconnaît que pour de nombreuses applications pratiques, le principe « garbage in, garbage out » (si l'on entre des données erronées, on obtient des résultats erronés) est le principal obstacle à l'obtention d'une grande précision.

La philosophie de base : La qualité avant la quantité

Le principe fondamental de l'IA centrée sur les données est qu'un ensemble de données plus petit et de haute qualité donne souvent de meilleurs résultats qu'un ensemble massif et bruité. Des figures de proue dans ce domaine, telles qu'Andrew Ng, ont défendu ce changement, arguant que la communauté de l'IA a historiquement survalorisé l'innovation algorithmique. Pour construire des systèmes robustes, les ingénieurs doivent s'engager dans des processus d'apprentissage actifs où ils identifient de manière itérative les modes de défaillance et les corrigent en affinant l'ensemble de données. Cela implique un étiquetage précis des données, la suppression des doublons et le traitement des cas limites que le modèle a du mal à classify.

Les principales activités de ce flux de travail comprennent :

  • Analyse systématique des erreurs : au lieu de se fier uniquement à des mesures agrégées telles que la précision, les développeurs analysent des cas spécifiques où le modèle échoue, comme la détection de petits objets dans des images aériennes, et collectent des données ciblées pour remédier à ces faiblesses.
  • Cohérence des étiquettes : il est essentiel de veiller à ce que tous les annotateurs suivent les mêmes directives. Des outils tels que Label Studio aident les équipes à gérer la qualité des annotations afin d'éviter les signaux contradictoires qui perturbent le processus de formation.
  • Augmentation des données : les développeurs utilisent des techniques d'augmentation des données pour élargir artificiellement la diversité de l'ensemble de données. En appliquant des transformations telles que la rotation, la mise à l'échelle et l'ajustement des couleurs, le modèle apprend à mieux généraliser à des environnements inconnus.
  • Génération de données synthétiques : lorsque les données réelles sont rares, les équipes peuvent générer des données synthétiques à l'aide de moteurs de simulation tels que NVIDIA afin de combler les lacunes dans l'ensemble de données, garantissant ainsi que les classes rares sont correctement représentées.

Applications concrètes

L'adoption d'une approche centrée sur les données est essentielle dans les secteurs où la précision de la vision par ordinateur est non négociable.

  1. Agriculture de précision : dans le domaine de l' IA appliquée à l'agriculture, la distinction entre une culture saine et une culture atteinte d'une maladie à un stade précoce repose souvent sur des indices visuels subtils. Une équipe centrée sur les données se concentrerait sur la création d'un ensemble de données de vision par ordinateur de haute qualité qui inclurait spécifiquement des exemples de maladies dans diverses conditions d'éclairage et à différents stades de croissance. Cela garantit que le modèle n'apprend pas à associer des caractéristiques d'arrière-plan non pertinentes à la classe de maladies, un problème courant connu sous le nom d' apprentissage par raccourci.
  2. Inspection industrielle : dans le domaine de l' IA appliquée à la fabrication, les défauts peuvent ne se produire qu'une fois sur dix mille unités. Un modèle d'apprentissage standard pourrait ignorer ces événements rares en raison du déséquilibre des classes. En employant des stratégies de détection des anomalies et en recherchant ou en synthétisant manuellement davantage d'images de ces défauts spécifiques, les ingénieurs s'assurent que le système atteint les taux de rappel élevés requis par les normes de contrôle qualité définies par des organisations telles que l'ISO.

Mise en œuvre de techniques centrées sur les données avec Ultralytics

Vous pouvez appliquer des techniques centrées sur les données, telles que l'augmentation, directement dans votre pipeline de formation. Le code Python suivant montre comment charger un modèle YOLO26 et le former avec des paramètres d'augmentation agressifs afin d'améliorer sa robustesse face aux variations.

from ultralytics import YOLO

# Load a YOLO26 model (recommended for new projects)
model = YOLO("yolo26n.pt")

# Train with specific data augmentations to improve generalization
# 'degrees' adds rotation, 'mixup' blends images, and 'copy_paste' adds object instances
results = model.train(
    data="coco8.yaml",
    epochs=10,
    degrees=15.0,  # Random rotation up to +/- 15 degrees
    mixup=0.1,  # Apply MixUp augmentation with 10% probability
    copy_paste=0.1,  # Use Copy-Paste augmentation
)

Distinguer les concepts apparentés

Pour bien comprendre l'IA centrée sur les données, il faut la différencier des termes similaires utilisés dans l'écosystème de l'apprentissage automatique.

  • IA centrée sur le modèle : il s'agit de l'approche inverse, dans laquelle l'ensemble de données est maintenu constant et les améliorations sont recherchées par le biais d'un processus de modélisation. et les améliorations sont recherchées par l 'ajustement des hyperparamètres ou des changements d'architecture. Bien qu'elle soit nécessaire pour repousser les limites de l'état de l'art dans les articles de recherche trouvés sur IEEE Xplore, elle donne souvent des résultats décroissants en production par rapport au nettoyage des données.
  • Big Data : le terme « Big Data » fait principalement référence au volume, à la vitesse et à la variété des informations. L'IA centrée sur les données ne nécessite pas nécessairement des données « volumineuses », mais plutôt des données « intelligentes ». Comme le souligne la communauté de l'IA centrée sur les données, un petit ensemble de données parfaitement étiqueté est souvent plus performant qu'un ensemble massif et bruité.
  • Analyse exploratoire des données (EDA) : La visualisation des données et l'EDA sont des étapes du flux de travail centré sur les données. L'EDA aide à identifier les incohérences à l'aide d'outils tels que Pandas, mais l'IA centrée sur les données englobe l'ensemble du cycle de vie technique de la correction de ces problèmes afin d'améliorer le moteur d'inférence.
  • MLOps : Les opérations d'apprentissage automatique (MLOps) fournissent l'infrastructure et les pipelines nécessaires à la gestion du cycle de vie de la production IA. L'IA centrée sur les données est la méthodologie appliquée au sein des pipelines MLOps afin de garantir que les données qui les traversent créent des modèles fiables. Des plateformes telles que Weights & Biases sont souvent utilisées pour track des changements de données sur les métriques des modèles.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant