Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

IA axée sur les données

Découvrez l'IA centrée sur les données, l'approche consistant à améliorer la qualité des ensembles de données pour améliorer les performances des modèles. Découvrez pourquoi de meilleures données, et pas seulement un meilleur modèle, sont essentielles pour une IA robuste.

L'IA centrée sur les données est une approche stratégique du développement de systèmes d'intelligence artificielle (IA). systèmes d'intelligence artificielle (IA) qui se concentre principalement sur l'amélioration de la qualité des données d'apprentissage plutôt que sur l'itération de l'architecture du modèle. Dans les flux de travail traditionnels, les développeurs traitent souvent l'ensemble de données comme une entrée fixe et consacrent des efforts considérables à l'ajustement des hyperparamètres ou à la conception de modèles complexes. hyperparamètres ou à concevoir des structures structures complexes de réseaux neuronaux (NN). En revanche, une méthodologie centrée sur les données traite le code du modèle, tel que l'architecture du réseau neuronal. Ultralytics YOLO11-comme une base de référence relativement statique, en orientant les efforts d'ingénierie vers le nettoyage systématique des données, la cohérence de l'étiquetage et l'augmentation des performances. performance.

La philosophie de base : La qualité avant la quantité

L'efficacité de tout système système d'apprentissage machine (ML) est fondamentalement fondamentalement limitée par le principe "garbage in, garbage out". Même les algorithmes les plus avancés ne peuvent des algorithmes les plus avancés ne peuvent pas apprendre des modèles efficaces à partir d'entrées bruyantes ou mal étiquetées. L'IA centrée sur les données part du principe que pour de nombreuses applications pratiques, les données d'apprentissage sont les plus importantes pour l'apprentissage. pratiques, les données d'apprentissage sont la les données d'apprentissage sont la variable la plus importante pour la réussite. Cette approche met l'accent sur le fait qu'un ensemble de données plus petit et de haute qualité donne souvent de meilleurs résultats qu'un ensemble massif et bruyant. meilleurs résultats qu'un ensemble massif et bruyant.

Les partisans de cette philosophie, tels qu'Andrew Ng, affirment que l'accent mis par la communauté de l'IA a été de manière disproportionnée sur l'innovation centrée sur les modèles. la communauté de l'IA s'est concentrée de manière disproportionnée sur l'innovation centrée sur le modèle. Pour construire des systèmes robustes, les ingénieurs doivent s'engager dans des processus d'apprentissage actifs, les ingénieurs doivent s'engager dans des processus d'apprentissage actif où ils identifient de manière itérative les modes de défaillance et les corrigent en affinant l'ensemble des données. Cela implique un étiquetage précis des données, la suppression des doublons et l'amélioration de la qualité des données. Cela implique un étiquetage précis des données, la suppression des doublons et le traitement des cas limites que le modèle a du mal à classer. que le modèle a du mal à classify.

Techniques clés et mise en œuvre

La mise en œuvre d'une stratégie centrée sur les données implique plusieurs processus techniques conçus pour concevoir l'ensemble des données afin d'obtenir une densité et une cohérence maximales de l'information. d'information et de cohérence.

  • Nettoyage systématique des données : Il s'agit de détecter et de corriger les erreurs dans les annotations, telles que l'identification des boîtes englobantes qui n'englobent pas qui n'englobent pas étroitement un objet ou la correction des erreurs de concordance des classes.
  • Augmentation des données : Les développeurs utilisent techniques d'augmentation des données pour artificiellement la diversité de l'ensemble de données. En appliquant des transformations telles que la rotation, la mise à l'échelle et l'ajustement des couleurs, le modèle apprend à mieux se généraliser à des environnements inédits. modèle apprend à mieux s'adapter à des environnements inédits.
  • Génération de données synthétiques : Lorsque les données réelles sont rares, les équipes peuvent générer des données synthétiques pour combler les lacunes de l'ensemble de données, par exemple en utilisant les données de la base de données. des données synthétiques pour combler les lacunes de l'ensemble de données, en veillant à ce que les classes rares soient correctement représentées.
  • Analyse des erreurs : Au lieu de s'intéresser uniquement à des mesures globales telles que la précision, les ingénieurs analysent les cas spécifiques où les erreurs ont été commises. comme la précision, les ingénieurs analysent les cas spécifiques où le modèle échoue et collectent des données ciblées pour corriger ces faiblesses spécifiques. modèle échoue et collectent des données ciblées pour remédier à ces faiblesses spécifiques.

Le code Python suivant montre comment appliquer des techniques d'augmentation centrées sur les données pendant l'entraînement en utilisant la fonction ultralytics l'emballage.

from ultralytics import YOLO

# Load the YOLO11 model
model = YOLO("yolo11n.pt")

# Train with specific data augmentations to improve generalization
# 'degrees' adds rotation, 'mixup' blends images, and 'copy_paste' adds object instances
results = model.train(
    data="coco8.yaml",
    epochs=10,
    degrees=15.0,  # Random rotation up to +/- 15 degrees
    mixup=0.1,  # Apply MixUp augmentation with 10% probability
    copy_paste=0.1,  # Use Copy-Paste augmentation
)

Applications concrètes

L'adoption d'une approche centrée sur les données est essentielle dans les secteurs où la précision de la vision par ordinateur est essentielle. où la précision de la vision par ordinateur non négociable.

  1. Agriculture de précision : En l 'IA en agriculture, la distinction entre une culture saine et une culture atteinte d'une maladie à un stade précoce repose souvent sur des indices visuels subtils. entre une culture saine et une culture atteinte d'une maladie à un stade précoce repose souvent sur des indices visuels subtils. Une équipe centrée sur les données s'attacherait à la conservation d'un ensemble de données de vision par ordinateur de haute qualité de données de vision par ordinateur de haute qualité comprenant des exemples de maladies dans différentes conditions d'éclairage et à différents stades de croissance. n'apprenne pas à associer des caractéristiques d'arrière-plan non pertinentes à la classe de maladie.
  2. Inspection industrielle : Pour l AI dans la fabrication, les défauts peuvent se produire une fois toutes les dix mille unités. Un modèle standard de formation pourrait ignorer ces événements rares. En employant des stratégies de stratégies de détection des anomalies et en recherchant ou en synthétisant manuellement davantage d'images de ces défauts spécifiques. ou en synthétisant manuellement davantage d'images de ces défauts spécifiques, les ingénieurs veillent à ce que le système atteigne les taux de rappel élevés requis pour les normes de contrôle de la qualité. taux de rappel élevés exigés par les normes de contrôle de la qualité définies par des organisations telles que l'ISO.

Distinguer les concepts apparentés

Pour comprendre l'IA centrée sur les données, il faut la distinguer des termes similaires dans l'écosystème de l'apprentissage automatique.

  • IA centrée sur le modèle : il s'agit de l'approche inverse, dans laquelle l'ensemble de données est maintenu constant et les améliorations sont recherchées par le biais d'un processus de modélisation. et les améliorations sont recherchées par l 'ajustement des hyperparamètres ou des changements d'architecture. Bien qu'elle soit nécessaire pour repousser les limites de l'état de l'art dans les articles de recherche trouvés sur IEEE Xplore, elle donne souvent des résultats décroissants en production par rapport au nettoyage des données.
  • Big Data : Les Big Data se réfèrent principalement à le volume, la vitesse et la variété des informations. L'IA centrée sur les données ne nécessite pas nécessairement des données "volumineuses" ; plutôt des données "intelligentes". Un petit ensemble de données parfaitement étiquetées est souvent plus performant qu'un ensemble massif et bruyant. bruyant.
  • L'analyse exploratoire des données (AED) : La visualisation des données et l'AED sont des étapes dans le flux de travail centré sur les données. L'AED permet d'identifier les incohérences, mais l'IA centrée sur les données englobe l'ensemble du cycle de vie de l'ingénierie. l'ensemble du cycle de vie de l'ingénierie qui consiste à résoudre ces problèmes afin d'améliorer le moteur d'inférence. moteur d'inférence.
  • MLOps : Machine Learning Operations (MLOps) fournit l'infrastructure et les pipelines pour gérer le cycle de vie de la production d'IA. L'IA centrée sur les données est la méthodologie appliquée dans les pipelines MLOps pour s'assurer que les données qui y circulent créent des modèles fiables.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant