Gestion intelligente des jeux de données en vision par ordinateur avec la plateforme Ultralytics
Explore comment tu peux utiliser la plateforme Ultralytics pour une meilleure gestion des jeux de données dans tes projets de vision par ordinateur. Suis, compare et améliore tes jeux de données en toute simplicité.

L'IA visuelle, ou vision par ordinateur, a parcouru un long chemin depuis ses débuts, passant de la recherche expérimentale à une technologie clé alimentant des applications concrètes. Aujourd'hui, les passionnés d'IA peuvent créer des modèles puissants pour des tâches comme la détection d'objets et la segmentation d'instances en utilisant des outils et des frameworks accessibles.
Cependant, à mesure que ces applications passent de l'expérimentation à la production, la gestion des jeux de données reste un défi critique et souvent négligé. À mesure que les jeux de données de vision par ordinateur gagnent en taille et en complexité, les équipes peinent souvent à maintenir des annotations cohérentes, à suivre les modifications entre les versions et à garantir la qualité globale des données.
Même les modèles de pointe peuvent être moins performants dans des environnements réels si les données sur lesquelles ils sont entraînés sont incomplètes, déséquilibrées ou mal gérées. C'est pourquoi cet écart croissant entre les performances de développement et la fiabilité en conditions réelles nécessite une approche plus structurée de la gestion des jeux de données.
Une autre limite courante est que la collecte, l'annotation et l'entraînement des données sont souvent gérés à l'aide d'outils distincts. Un flux de travail fragmenté rend plus difficile la gestion efficace des jeux de données, augmente le risque d'incohérences et ralentit l'itération.
Pour résoudre les goulots d'étranglement de l'IA visuelle tels que la gestion des jeux de données et les flux de travail fragmentés, nous avons récemment lancé Ultralytics Platform. Il s'agit d'un espace de travail complet qui intègre la gestion des jeux de données, l'annotation, l'entraînement, le déploiement et la surveillance au sein d'un flux de travail unifié.
En connectant chaque étape du cycle de vie de la vision par ordinateur, il devient plus facile de suivre les modifications des jeux de données, de comparer les performances entre les versions et d'affiner continuellement tes données pour obtenir de meilleurs résultats.

Fig 1. Un exemple de visualisation de tes images de jeu de données dans Ultralytics Platform (Source)
Dans cet article, nous allons explorer comment Ultralytics Platform t'aide à suivre, comparer et améliorer tes jeux de données pour construire des modèles de vision par ordinateur plus fiables. Commençons !
Link to this sectionL'importance de la gestion des jeux de données en vision par ordinateur#
La performance d'un modèle de vision par ordinateur est étroitement liée aux données sur lesquelles il est entraîné. La précision du modèle, soit la fréquence à laquelle les prédictions sont correctes, dépend non seulement de l'algorithme, mais aussi de la qualité avec laquelle le jeu de données représente les conditions réelles.
En termes simples, un modèle apprend des modèles directement à partir des données ; ainsi, toute lacune, tout biais ou toute incohérence dans le jeu de données peut influencer ses prédictions. En d'autres termes, des données de mauvaise qualité, des annotations incorrectes ou une couverture limitée des variations réelles dans les images (telles que différentes conditions d'éclairage, angles d'objet, arrière-plans ou niveaux d'occlusion) peuvent réduire considérablement la précision, même si l'architecture du modèle elle-même est robuste.
Cela s'applique également lors du réglage fin (fine-tuning) d'un modèle, où un modèle pré-entraîné est entraîné davantage sur des données nouvelles ou mises à jour pour mieux s'adapter à un cas d'utilisation ou à un environnement spécifique. Puisque la précision du modèle dépend si fortement des données, la gestion appropriée de celles-ci devient essentielle.
La gestion des jeux de données comprend l'organisation, l'étiquetage et la mise à jour continue des données afin qu'elles restent précises et pertinentes. Cela facilite l'amélioration des performances au fil du temps, en particulier lors du réentraînement ou du réglage fin des modèles sur de nouvelles données.
Link to this sectionComment la qualité des jeux de données affecte la fiabilité en conditions réelles#
Les cas d'utilisation de la vision par ordinateur, tels que les systèmes de surveillance de sécurité, sont un excellent exemple de la nécessité d'une gestion appropriée des données. Ces systèmes doivent fonctionner de manière fiable dans diverses conditions réelles, y compris des environnements d'éclairage variés, des angles de caméra différents, des niveaux d'affluence et des occlusions partielles.
Si les données d'entraînement ne couvrent pas ces variations ou manquent de diversité dans la manière dont les objets apparaissent à travers différentes scènes et conditions, le modèle pourrait avoir du mal à détecter les objets avec précision. Par exemple, un modèle entraîné principalement sur des scènes bien éclairées et dégagées pourrait être peu performant dans des environnements faiblement éclairés ou encombrés. Dans les systèmes de sécurité, cela peut entraîner des événements manqués ou de fausses alertes.
Pour éviter cela, il est important de maintenir des jeux de données qui sont non seulement propres et étiquetés avec précision, mais aussi bien équilibrés et continuellement mis à jour. Cela signifie identifier les lacunes dans les données, ajouter de nouveaux exemples à mesure que les conditions changent et s'assurer que différentes classes et environnements sont représentés de manière uniforme.
Avec un jeu de données plus complet et structuré, les modèles sont mieux équipés pour gérer la variabilité réelle et produire des prédictions plus fiables.
Link to this sectionAspects clés de la gestion des jeux de données#
Alors, à quoi ressemble concrètement la gestion des jeux de données ? Elle implique l'organisation, l'étiquetage et la maintenance des données afin qu'elles puissent être utilisées efficacement tout au long du processus de développement du modèle.
L'organisation des données, par exemple, comprend la structuration du jeu de données et sa séparation en ensembles d'entraînement, de validation et de test. L'ensemble d'entraînement est utilisé pour apprendre au modèle, l'ensemble de validation sert à surveiller les performances et à guider les ajustements pendant le développement, et l'ensemble de test sert à évaluer les performances du modèle final sur des données totalement inconnues.
Pendant ce temps, l'étiquetage consiste à annoter les images avec des détails tels que les étiquettes de classe, les boîtes englobantes (bounding boxes) ou les masques de segmentation. Étant donné que le modèle apprend à partir de ces annotations, la précision et la cohérence sont cruciales pour l'aider à apprendre des modèles significatifs et à faire des prédictions fiables.
En complément, la maintenance du jeu de données implique l'examen et la mise à jour des données au fil du temps. Cela peut inclure la correction des erreurs d'annotation, la suppression de données de faible qualité ou en double, et l'ajout de nouveaux exemples pour couvrir des cas manquants ou des conditions changeantes.
Plus largement, la gestion des jeux de données est un processus continu. À mesure que les modèles sont évalués et que de nouvelles données sont collectées, les jeux de données doivent être mis à jour pour refléter les conditions réelles et les cas limites. Le suivi de ces mises à jour et la comparaison des différentes versions aident les équipes à comprendre ce qui améliore les performances et où des changements supplémentaires sont nécessaires.
Link to this sectionGestion des jeux de données avec Ultralytics Platform#
Ultralytics Platform fournit un flux de travail structuré pour gérer les jeux de données dans un environnement unique, couvrant tout, de la préparation des données à l'exportation. Il est conçu pour soutenir à la fois les développeurs individuels et les équipes, facilitant ainsi la gestion cohérente des jeux de données, que tu travailles de manière indépendante ou que tu collabores sur des projets.
Chaque étape est conçue pour simplifier la manière dont les jeux de données sont organisés, traités et utilisés tout au long du cycle de vie du développement du modèle. En regroupant ces étapes, la plateforme réduit la fragmentation et rend le maintien de la cohérence à travers les flux de travail plus direct.
Ensuite, parcourons les étapes clés impliquées et voyons comment la plateforme soutient chacune d'elles.
Link to this sectionChargement des jeux de données sur Ultralytics Platform#
Démarrer avec les jeux de données sur la plateforme est flexible, avec de multiples façons d'importer ou de réutiliser des données. Tu peux charger tes propres données ou commencer plus rapidement en utilisant les jeux de données publics disponibles sur la plateforme. Tu peux également cloner des jeux de données existants partagés par la communauté et construire par-dessus.
Les fonctionnalités communautaires de la plateforme facilitent l'exploration et la réutilisation du travail existant. Avec l'accès à des jeux de données créés par d'autres utilisateurs, incluant des millions d'images et d'annotations, tu peux rapidement commencer sans avoir à tout collecter et étiqueter toi-même. Le clonage d'un jeu de données crée une copie dans ton espace de travail, te permettant de le modifier et de l'étendre tout en préservant l'original.
Pour les chargements, la plateforme prend en charge les images individuelles, les vidéos et les archives de jeux de données telles que les fichiers ZIP, TAR ou GZ. Elle prend également en charge les formats de jeux de données largement utilisés comme YOLO et COCO, facilitant l'importation des jeux de données et des annotations existants sans conversion supplémentaire. Au-delà, tu peux charger un jeu de données en utilisant un fichier NDJSON exporté depuis la plateforme, ce qui rend la recréation ou la réutilisation des jeux de données entre les projets transparente.
Une fois les données chargées, la plateforme traite les données via un pipeline structuré. Cela inclut la validation des formats et des tailles de fichiers, le redimensionnement des images si nécessaire, l'analyse des annotations et la génération de statistiques sur le jeu de données.
Par exemple, les vidéos sont converties en images pour pouvoir être utilisées pour l'entraînement, tandis que les images sont optimisées et préparées pour une navigation et une analyse plus faciles. Après le traitement, les jeux de données sont prêts à être utilisés pour l'annotation, l'analyse et l'entraînement de modèles au sein de la plateforme.
Link to this sectionAnnotation de données sur Ultralytics Platform#
Une fois chargés, les jeux de données peuvent être examinés et annotés directement au sein de la plateforme. La plateforme inclut des outils d'annotation d'images intégrés pour une gamme de tâches de vision par ordinateur, telles que la détection d'objets, la segmentation d'instances, l'estimation de pose, la détection par boîte englobante orientée (OBB) et la classification d'images.

Fig 2. Utilisation d'Ultralytics Platform pour l'étiquetage des données (Source)
Les annotations peuvent être créées manuellement à l'aide de ces outils ou accélérées grâce à des fonctionnalités assistées par IA comme l'annotation intelligente alimentée par SAM. Avec SAM, tu peux générer des masques, des boîtes englobantes ou des boîtes orientées en interagissant avec l'image, aidant à accélérer le processus d'étiquetage tout en maintenant la précision.
Link to this sectionAnalyse de la qualité du jeu de données via Ultralytics Platform#
En plus de préparer et d'annoter les données, comprendre la qualité du jeu de données est essentiel pour construire des modèles de vision par ordinateur fiables. Sans une visibilité claire sur des facteurs comme la distribution des classes, la qualité des annotations, les divisions du jeu de données et la manière dont les données sont représentées dans différentes conditions, il peut être difficile de repérer les problèmes qui impactent les performances du modèle.
Ultralytics Platform inclut des fonctionnalités intégrées pour aider à analyser les jeux de données plus efficacement. Ces informations sont disponibles directement dans l'interface du jeu de données, via des onglets comme Images, Classes et Graphiques.
Dans l'onglet Graphiques, tu peux visualiser des statistiques au niveau du jeu de données telles que la distribution des divisions (entraînement, validation et test), la fréquence des classes et les cartes de chaleur d'annotation qui montrent où les objets apparaissent dans les images.
L'onglet Classes fournit une répartition des nombres d'annotations par classe, facilitant ainsi la détection du déséquilibre des classes. Pendant ce temps, l'onglet Images montre des détails au niveau de l'image tels que les dimensions, les nombres d'annotations et la manière dont les étiquettes sont distribuées sur les images individuelles.
Ces informations facilitent l'identification de problèmes tels que le déséquilibre des classes, les scénarios manquants ou une distribution inégale des données. Par exemple, tu pourrais remarquer que certaines classes ont très peu d'exemples ou que la plupart des annotations sont concentrées dans des zones spécifiques d'une image.
Au-delà de l'analyse des données, la plateforme prend en charge la curation et l'augmentation des jeux de données, ce qui signifie affiner les jeux de données en corrigeant ou en supprimant les données problématiques et en créant des variations de données existantes pour améliorer les performances du modèle. Ces améliorations peuvent être effectuées directement dans la plateforme en mettant à jour les annotations, en ajoutant de nouvelles données ou en réorganisant les divisions du jeu de données en fonction des informations issues de l'analyse.
Link to this sectionExportation des jeux de données depuis Ultralytics Platform#
Une fois qu'un jeu de données est préparé et validé, il peut être exporté pour être utilisé dans différents environnements. Cela te donne la flexibilité d'utiliser tes données de vision par ordinateur là où tu le souhaites, que ce soit pour entraîner des modèles localement, dans le cloud ou dans d'autres outils et flux de travail.
Ultralytics Platform prend en charge plusieurs formats d'exportation, notamment YOLO, COCO et NDJSON, facilitant ainsi l'intégration des jeux de données dans différents flux de travail d'entraînement et outils.

Fig 3. Exportation d'un jeu de données depuis Ultralytics Platform (Source)
L'exportation d'un jeu de données crée un instantané fixe des données à un moment précis, incluant ses images, ses annotations et sa structure. C'est utile car les jeux de données changent souvent à mesure que de nouvelles données sont ajoutées, que les annotations sont mises à jour ou que les divisions sont ajustées. En exportant un instantané, tu peux préserver la version exacte du jeu de données utilisée pour une exécution d'entraînement particulière.
Cela simplifie la reproduction des résultats plus tard, car tu peux entraîner à nouveau un modèle sur la même configuration de données et comparer les performances entre différentes versions du jeu de données. Par exemple, tu peux évaluer si l'ajout de nouvelles images ou la correction d'annotations améliore réellement la précision du modèle, au lieu de deviner ce qui a changé.
Les exportations sont gérées de manière asynchrone et, une fois prêtes, les jeux de données peuvent être téléchargés et utilisés dans des environnements d'entraînement locaux, cloud ou hors ligne.
Link to this sectionAmélioration de la qualité des jeux de données par itérations sur Ultralytics Platform#
Dans les flux de travail d'apprentissage automatique et d'apprentissage profond, la gestion des jeux de données se poursuit même après le déploiement, car les données réelles diffèrent souvent des données utilisées pendant l'entraînement.
À mesure que les modèles rencontrent de nouvelles entrées, les lacunes dans le jeu de données, telles que les conditions manquantes (environnements faiblement éclairés, différents angles de caméra, occlusions ou scènes encombrées) ainsi que les erreurs d'annotation, deviennent plus apparentes, rendant nécessaire l'affinement des données au fil du temps.
Il existe plusieurs façons d'améliorer un jeu de données. Tu peux ajouter de nouvelles images ou vidéos pour couvrir les conditions manquantes, telles que les environnements faiblement éclairés, les différents angles de caméra, les occlusions ou les scènes encombrées, aidant ainsi à réduire les angles morts dans les données.
En même temps, veiller à ce que les annotations soient précises et cohérentes, avec des objets correctement étiquetés et des boîtes englobantes ou des masques précis, aide le modèle à apprendre des modèles plus fiables.
Cela suit généralement une boucle simple : entraîner le modèle, évaluer les résultats, identifier les erreurs, améliorer le jeu de données et réentraîner. Chaque étape aide à mettre en évidence des problèmes tels que des annotations incorrectes, des données manquantes ou des cas sous-représentés.
Supposons que tu travailles sur un système de surveillance d'étagères de vente au détail en temps réel utilisé pour détecter des produits dans les magasins. Les premières versions du jeu de données pourraient ne pas inclure certains types de produits, conditions d'éclairage ou agencements d'étagères encombrées. Lors de l'évaluation, tu pourrais remarquer que le modèle a du mal à détecter les articles dans ces situations.
Pour améliorer les performances, tu peux collecter de nouvelles images couvrant ces scénarios manquants et mettre à jour les annotations si nécessaire. Au fil du temps, la répétition de ce processus aide le modèle à devenir plus précis et plus fiable dans des conditions réelles.
Ultralytics Platform prend en charge ce flux de travail en connectant les mises à jour des jeux de données à l'entraînement et à l'évaluation. Avec le suivi des expériences et les mesures de performance intégrés, il devient plus facile de surveiller les progrès et d'améliorer continuellement les jeux de données au fil du temps.
Link to this sectionSuivi des modifications des jeux de données à l'aide d'Ultralytics Platform#
Nous avons brièvement discuté de la manière dont les jeux de données évoluent au fil du temps dans le cadre du processus de développement du modèle. À mesure que de nouvelles données sont ajoutées, que les annotations sont affinées et que les classes sont mises à jour, le suivi de ces modifications devient essentiel pour maintenir la qualité des données et garantir des performances de modèle cohérentes.
Voici quelques-unes des fonctionnalités clés d'Ultralytics Platform qui prennent en charge le suivi des jeux de données et le contrôle de version :
- Gestion des versions du jeu de données : Tu peux créer des versions fixes du jeu de données sous forme d'instantanés NDJSON. Chaque version capture des détails clés tels que le nombre d'images, le nombre de classes, le nombre d'annotations et la taille du jeu de données à un moment précis. Ces versions sont stockées et peuvent être téléchargées plus tard, facilitant ainsi la reproduction des expériences et la comparaison des résultats entre différents états du jeu de données.
- Onglet Versions : Toutes les versions du jeu de données sont organisées dans l'onglet Versions, où tu peux consulter l'historique des versions, ajouter des descriptions aux modifications et suivre l'évolution du jeu de données au fil du temps.
- Liaison avec les modèles : L'onglet Modèles montre tous les modèles entraînés sur un jeu de données, incluant des mesures comme le mAP et les détails de l'entraînement. Les versions des jeux de données sont liées aux exécutions d'entraînement, t'aidant à comprendre comment les modifications apportées aux données impactent les performances du modèle.
- Onglet Erreurs : L'onglet Erreurs met en évidence les fichiers qui ont échoué lors du traitement, ainsi que les détails de l'erreur et des suggestions. Cela te permet d'identifier et de corriger des problèmes tels que des fichiers corrompus ou des formats non pris en charge avant l'entraînement.
- Interface du jeu de données (onglets Images et Classes) : Ces vues te permettent de parcourir les images, d'examiner les annotations, de gérer les étiquettes de classe et d'analyser la distribution des classes. Des fonctionnalités comme le filtrage, le tri et l'identification des images non annotées facilitent la surveillance de la qualité du jeu de données au fil du temps.
- Statistiques et graphiques : Les visualisations de données intégrées, telles que la distribution des divisions, la fréquence des classes et les cartes de chaleur d'annotation, aident à suivre les changements dans la distribution des données et à identifier les déséquilibres à mesure que le jeu de données évolue.

Fig 4. Un aperçu de l'analyse de la distribution des classes d'un jeu de données sur Ultralytics Platform (Source)
Link to this sectionConnexion des jeux de données à l'entraînement et au déploiement au sein d'Ultralytics Platform#
Ultralytics Platform connecte différentes étapes du développement de modèles d'IA en un seul pipeline. Cela rationalise le processus, passant des données brutes aux applications d'IA visuelle prêtes pour la production.
Une fois les jeux de données préparés et annotés, ils peuvent être utilisés pour entraîner des modèles de vision par ordinateur, tels qu'Ultralytics YOLO26, directement au sein de la plateforme. Pendant l'entraînement, tu peux surveiller les mesures de performance, suivre les expériences et évaluer la progression de l'apprentissage du modèle à l'aide de tableaux de bord intégrés.

Fig 5. Un aperçu de la visualisation des mesures d'entraînement de modèle sur Ultralytics Platform (Source)
Après l'entraînement, les modèles peuvent être testés sur de nouvelles images directement dans le navigateur pour évaluer les prédictions et identifier les domaines nécessitant des améliorations avant le déploiement. Lorsque le modèle fonctionne bien, il peut être déployé en production.
La plateforme prend en charge l'exportation des modèles vers plusieurs formats ou leur déploiement via des services d'inférence et des points de terminaison dédiés, leur permettant de s'exécuter dans différents environnements.
Une fois déployés, les outils de surveillance intégrés aident à suivre les performances du système au fil du temps, y compris les mesures liées à l'utilisation et au comportement du modèle. Cela rend le maintien et l'amélioration des systèmes d'IA visuelle dans les applications réelles plus directs.
Link to this sectionMeilleures pratiques pour la gestion des jeux de données avec Ultralytics Platform#
Voici quelques facteurs clés à garder à l'esprit lors de la gestion de tes jeux de données à l'aide d'Ultralytics Platform :
- Utilise des filtres pour trouver les lacunes : Identifie les données non étiquetées ou sous-représentées à l'aide d'outils de filtrage, facilitant ainsi la finalisation des annotations et l'amélioration de la couverture.
- Corrige les erreurs rapidement : Utilise l'onglet Erreurs pour le contrôle qualité afin de détecter les chargements ayant échoué, les fichiers corrompus ou les formats non pris en charge avant l'entraînement.
- Mets à jour continuellement les jeux de données : Ajoute de nouvelles données, corrige les annotations et inclut les cas limites à mesure qu'ils apparaissent. Cela aide à améliorer la couverture et garantit que les modèles fonctionnent de manière fiable dans des scénarios réels.
- Gère soigneusement les divisions des jeux de données : Assure un bon équilibre entre les ensembles d'entraînement, de validation et de test. Tu peux réorganiser manuellement les divisions ou utiliser la redistribution automatique si nécessaire.
Pour en savoir plus sur Ultralytics Platform, consulte la documentation officielle d'Ultralytics.
Link to this sectionPoints clés#
À mesure que les projets de vision par ordinateur prennent de l'ampleur, la gestion efficace des jeux de données devient tout aussi importante que le développement de modèles. Une approche structurée de la gestion des jeux de données aide à améliorer la qualité des données, à rationaliser les flux de travail et à soutenir de meilleures performances de modèle au fil du temps.
Ultralytics Platform simplifie ce processus en intégrant la gestion des jeux de données, l'entraînement et le déploiement au sein d'un seul flux de travail. En adoptant une approche structurée de la gestion des jeux de données, les équipes peuvent réduire la complexité, améliorer l'efficacité et construire des systèmes de vision par ordinateur plus évolutifs et plus fiables.
Rejoins notre communauté grandissante et explore notre dépôt GitHub pour des ressources en IA. Pour construire avec l'IA visuelle dès aujourd'hui, jette un œil à nos options de licence. Apprends comment l'IA dans l'agriculture transforme l'exploitation agricole et comment l'IA visuelle dans la santé façonne l'avenir en visitant nos pages de solutions.






