Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Provenance des données

Découvrez comment la traçabilité des données garantit la transparence et la reproductibilité de l'IA. Explorez le suivi de la traçabilité des données pour les ensembles de données de vision par ordinateur avec Ultralytics .

La provenance des données désigne l'historique complet de l'origine, des métadonnées et des transformations des données tout au long de leur parcours dans un pipeline d'apprentissage automatique. Dans le contexte de l'intelligence artificielle et de la vision par ordinateur, elle fournit une traçabilité détaillée de la manière dont un ensemble de données de vision par ordinateur a été collecté, traité et modifié avant d'être intégré à un réseau neuronal. Comprendre d'où proviennent les données est essentiel pour garantir la sécurité de l'IA, permettre une reproductibilité rigoureuse et assurer la conformité avec les nouveaux cadres réglementaires tels que la loi de l'Union européenne sur l'IA.

Pourquoi il est important de suivre la traçabilité des données

Le fait de conserver une trace claire de l'évolution des données aide les équipes d'ingénieurs à créer des modèles robustes et fiables. Lors de l' entraînement d'une architecture avancée telle que Ultralytics , il est essentiel, pour le débogage, de savoir exactement quelles techniques d'augmentation des données ont été appliquées ou comment les étapes de prétraitement des données ont modifié les images d'origine . Si la précision d'un modèle baisse de manière inattendue, un ingénieur peut remonter la chaîne de données pour identifier les fichiers corrompus, les annotations manquantes ou un partage des données d'entraînement non représentatif.

Ce concept est étroitement lié à l'étiquetage des données, mais s'en distingue. Alors que l'étiquetage se concentre sur les balises ou les cadres de sélection effectivement appliqués à une image, la traçabilité des données permet de suivre les éléments « qui, quoi, quand et où » tout au long du cycle de vie de l'ensemble de données. Ce suivi global contribue à atténuer les biais systémiques des ensembles de données en mettant en évidence les sources déséquilibrées.

Applications concrètes

Un suivi rigoureux des données est largement mis en œuvre dans tous les secteurs afin de garantir la transparence dans le domaine de l'IA:

  • Analyse d'images médicales: dans le secteur de la santé, les organismes doivent pouvoir retracer l'origine de chaque radiographie ou IRM jusqu'à l'établissement d'origine afin de se conformer aux lois strictes en matière de protection des données, telles que la loi HIPAA. La traçabilité garantit que les modèles détectant les tumeurs par détection d'objets sont entraînés exclusivement sur des dossiers médicaux obtenus de manière éthique et vérifiés par les patients.
  • Véhicules autonomes: les constructeurs de voitures autonomes mettent continuellement à jour leurs modèles en tenant compte de cas limites, tels que les routes enneigées ou les chantiers. À l'aide de cadres complets de traçabilité des données, ils track quel véhicule de leur flotte a capturé une image et dans quelles conditions météorologiques. Cela permet un réglage fin ciblé tout en évitant l'oubli catastrophique.

Mise en œuvre de flux de travail de traçabilité

Les flux de travail modernes ont souvent recours à des espaces de travail centralisés tels que Ultralytics pour permettre une gestion intelligente des ensembles de données. Cela garantit un contrôle de version adéquat des annotations, ce qui facilite la comparaison des différentes versions d'un ensemble de données. Les principaux frameworks tels que PyTorch et TensorFlow encouragent également des pratiques structurées de chargement des données qui préservent les métadonnées précieuses.

Lors de l'entraînement d'un modèle, la sauvegarde de la structure de l'ensemble de données constitue une forme fondamentale de traçabilité. Dans le ultralytics paquet, vous pouvez définir les chemins d'accès à vos ensembles de données et vos classes dans un Fichier de configuration YAML, qui est automatiquement enregistré dans le répertoire d'entraînement afin de conserver l'historique de configuration de l'expérience.

from ultralytics import YOLO

# Load a pre-trained YOLO26 model
model = YOLO("yolo26n.pt")

# Train the model; the coco8.yaml dataset config is copied and logged for provenance
results = model.train(data="coco8.yaml", epochs=10, project="Run_History", name="experiment_1")

En mettant en place des pratiques rigoureuses en matière de traçabilité, les organisations peuvent promouvoir l'éthique de l'IA et garantir que leurs systèmes d'apprentissage automatique soient transparents, fiables et dignes de confiance dès leur conception.

Construisons ensemble l'avenir de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique