En cliquant sur « Accepter tous les cookies », vous acceptez le stockage de cookies sur votre appareil pour améliorer la navigation sur le site, analyser son utilisation et contribuer à nos efforts de marketing. Plus d’infos
Paramètres des cookies
En cliquant sur « Accepter tous les cookies », vous acceptez le stockage de cookies sur votre appareil pour améliorer la navigation sur le site, analyser son utilisation et contribuer à nos efforts de marketing. Plus d’infos
Joignez-vous à nous pour examiner de plus près les meilleurs ensembles de données de vision par ordinateur de 2025. Découvrez comment des ensembles de données diversifiés et de haute qualité permettent de créer des solutions de Vision IA plus intelligentes.
Saviez-vous que les données jouent un rôle dans presque tout ce que vous faites quotidiennement ? Regarder une vidéo, prendre une photo ou consulter Google Maps contribue au flux constant d'informations capturées par plus de 75 milliards d'appareils connectés. Ces éléments de données constituent le fondement de l'intelligence artificielle (IA). En fait, les modèles avancés de vision par ordinateur comme Ultralytics YOLO11 s'appuient sur des données visuelles pour identifier des schémas, interpréter des images et donner un sens au monde qui nous entoure.
Il est intéressant de noter que la valeur des données ne se résume pas à la quantité. L'important est de savoir dans quelle mesure elles sont organisées et préparées. Si un ensemble de données est désordonné ou incomplet, cela peut entraîner des erreurs. Cependant, lorsque les ensembles de données sont propres et diversifiés, ils aident les modèles de vision par ordinateur à mieux fonctionner, qu'il s'agisse de reconnaître des objets dans une foule ou d'analyser des éléments visuels complexes. Des ensembles de données de haute qualité font toute la différence.
Dans cet article, nous explorerons les meilleurs ensembles de données de vision par ordinateur de 2025 et verrons comment ils contribuent à la création de modèles de vision par ordinateur plus précis et efficaces. Commençons !
Que sont les ensembles de données de vision par ordinateur ?
Un ensemble de données de vision par ordinateur est une collection d'images ou de vidéos qui aident les systèmes de vision par ordinateur à apprendre à comprendre et à reconnaître les informations visuelles. Ces ensembles de données sont fournis avec des étiquettes ou des annotations qui aident les modèles à reconnaître les objets, les personnes, les scènes et les motifs dans les données.
Ils peuvent être utilisés pour entraîner des modèles de vision par ordinateur, les aidant à améliorer des tâches telles que l'identification de visages, la détection d'objets ou l'analyse de scènes. Plus l'ensemble de données est de qualité (bien organisé, diversifié et précis), meilleures sont les performances du modèle de Vision IA, ce qui conduit à une technologie plus intelligente et plus utile dans la vie quotidienne.
Comment construire un jeu de données de vision par ordinateur
La création d'un jeu de données de vision par ordinateur s'apparente à la préparation de notes d'étude pour apprendre à quelqu'un à voir et à comprendre le monde. Tout commence par la collecte d'images et de vidéos qui correspondent à l'application spécifique que vous développez.
Un ensemble de données idéal comprend divers exemples des objets d'intérêt, capturés sous différents angles, dans diverses conditions d'éclairage et dans de multiples arrière-plans et environnements. Cette variété garantit que le modèle de vision par ordinateur apprend à reconnaître les motifs avec précision et fonctionne de manière fiable dans des scénarios réels.
Fig. 1. Création du dataset de vision parfait. Image par l'auteur.
Après avoir collecté des images et des vidéos pertinentes, l'étape suivante consiste à l'étiquetage des données. Ce processus implique l'ajout de balises, d'annotations ou de descriptions aux données afin que l'IA puisse comprendre ce que chaque image ou vidéo contient.
Les étiquettes peuvent inclure les noms des objets, leurs emplacements, leurs limites ou d'autres détails pertinents qui aident à entraîner le modèle à reconnaître et à interpréter avec précision les informations visuelles. L'étiquetage des données transforme une simple collection d'images en un ensemble de données structurées qui peut être utilisé pour entraîner un modèle de vision par ordinateur.
L'entraînement du modèle nécessite des données de haute qualité
Vous vous demandez peut-être ce qui fait la qualité d'un ensemble de données. De nombreux facteurs sont impliqués, comme l'étiquetage précis, la diversité et la cohérence. Par exemple, si plusieurs annotateurs étiquettent un ensemble de données de détection d'objets pour identifier les oreilles de chat, l'un peut les étiqueter comme faisant partie de la tête tandis qu'un autre les étiquette séparément comme des oreilles. Cette incohérence peut dérouter le modèle et affecter sa capacité à apprendre correctement.
Voici un aperçu rapide des qualités d'un ensemble de données de vision par ordinateur idéal :
Étiquettes claires : Chaque image est annotée avec précision avec des étiquettes cohérentes et précises.
Données diverses : L'ensemble de données comprend différents objets, arrière-plans, conditions d'éclairage et angles pour aider le modèle à bien fonctionner dans diverses situations.
Images haute résolution : Des images nettes et détaillées permettent au modèle d'apprendre et de reconnaître plus facilement les caractéristiques.
Ultralytics prend en charge divers jeux de données
Les modèles Ultralytics YOLO, comme YOLO11, sont conçus pour fonctionner avec des ensembles de données dans un format de fichier YOLO spécifique. Bien qu'il soit facile de convertir vos propres données dans ce format, nous offrons également une option simple pour ceux qui souhaitent commencer à expérimenter immédiatement.
Le package Python Ultralytics prend en charge un large éventail d'ensembles de données de vision par ordinateur, ce qui vous permet de plonger dans des projets utilisant des tâches telles que la détection d'objets, la segmentation d'instances ou l'estimation de pose sans aucune configuration supplémentaire.
Les utilisateurs peuvent facilement accéder à des ensembles de données prêts à l'emploi tels que COCO, DOTA-v2.0, Open Images V7 et ImageNet en spécifiant le nom de l'ensemble de données comme l'un des paramètres de la fonction d'entraînement. Lorsque vous le faites, l'ensemble de données est automatiquement téléchargé et préconfiguré, de sorte que vous pouvez vous concentrer sur la construction et l'affinage de vos modèles.
Top 5 des ensembles de données de vision par ordinateur en 2025
Les avancées en matière d'IA de vision reposent sur des ensembles de données diversifiés et à grande échelle qui stimulent l'innovation et permettent des percées. Examinons quelques-uns des ensembles de données les plus importants, pris en charge par Ultralytics, qui influencent les modèles de vision par ordinateur.
Ensemble de données ImageNet
ImageNet, créé par Fei-Fei Li et son équipe à l'université de Princeton en 2007 et présenté en 2009, est un vaste ensemble de données contenant plus de 14 millions d'images étiquetées. Il est largement utilisé pour entraîner les systèmes à reconnaître et à catégoriser différents objets. Sa conception structurée le rend particulièrement utile pour enseigner aux modèles comment classer les images avec précision. Bien que bien documenté, il se concentre principalement sur la classification d'images et manque d'annotations détaillées pour des tâches telles que la détection d'objets.
Voici un aperçu de certains des principaux atouts d'ImageNet :
Diversité : Avec des images couvrant plus de 20 000 catégories, ImageNet offre un ensemble de données vaste et varié qui améliore l'entraînement et la généralisation du modèle.
Organisation structurée : Les images sont méticuleusement classées à l'aide de la hiérarchie WordNet, ce qui facilite la récupération efficace des données et l'entraînement systématique des modèles.
Documentation complète : Des recherches approfondies et des années d'étude rendent ImageNet accessible aux débutants comme aux experts, fournissant des informations et des conseils précieux pour les projets de vision par ordinateur.
Cependant, comme tout ensemble de données, il a ses limites. Voici quelques-uns des défis à prendre en compte :
Besoins en calcul : Sa taille massive peut poser des problèmes aux petites équipes disposant de ressources informatiques limitées.
Manque de données temporelles : Puisqu'il ne contient que des images statiques, il peut ne pas répondre aux besoins des applications nécessitant des données vidéo ou temporelles.
Images obsolètes : Certaines images de l'ensemble de données sont plus anciennes et peuvent ne pas refléter les objets, les styles ou les environnements actuels, ce qui pourrait réduire la pertinence pour les applications modernes.
Ensemble de données DOTA-v2.0
L'ensemble de données DOTA-v2.0, où DOTA signifie Dataset for Object Detection in Aerial Images (ensemble de données pour la détection d'objets dans les images aériennes), est une vaste collection d'images aériennes créée spécialement pour la détection d'objets par boîtes englobantes orientées (OBB). Dans la détection OBB, des boîtes englobantes pivotées sont utilisées pour s'aligner plus précisément sur l'orientation réelle des objets dans l'image. Cette méthode fonctionne particulièrement bien pour l'imagerie aérienne, où les objets apparaissent souvent sous différents angles, ce qui permet une localisation plus précise et une meilleure détection globale.
Cet ensemble de données comprend plus de 11 000 images et plus de 1,7 million de boîtes englobantes orientées dans 18 catégories d'objets. Les images varient de 800×800 à 20 000×20 000 pixels et comprennent des objets tels que des avions, des navires et des bâtiments.
Fig. 2. Exemples d'images et d'annotations de l'ensemble de données DOTA-v2.0. Image par l'auteur.
En raison de ses annotations détaillées, DOTA-v2.0 est devenu un choix populaire pour les projets de télédétection et de surveillance aérienne. Voici quelques-unes des principales caractéristiques de DOTA-v2.0 :
Diverses catégories d'objets : Il couvre de nombreux types d'objets différents, tels que des véhicules, des ports et des réservoirs de stockage, ce qui permet aux modèles de s'exposer à divers objets du monde réel.
Annotations de haute qualité : Des annotateurs experts ont fourni des boîtes englobantes précisément orientées qui montrent clairement les formes et les directions des objets.
Images multi-échelles : L’ensemble de données comprend des images de différentes tailles, ce qui aide les modèles à apprendre à détecter les objets à petite et à grande échelle.
Bien que DOTA-v2 ait de nombreux atouts, voici quelques limitations que les utilisateurs doivent garder à l'esprit :
Étapes de téléchargement supplémentaires : En raison de la manière dont l'ensemble de données DOTA est géré, DOTA-v2.0 nécessite une étape de configuration supplémentaire. Vous devez d'abord télécharger les images DOTA-v1.0, puis ajouter les images supplémentaires et les annotations mises à jour pour DOTA-v2.0 afin de compléter l'ensemble de données.
Annotations complexes : Les boîtes englobantes orientées peuvent nécessiter un effort supplémentaire à gérer pendant l'entraînement du modèle.
Portée limitée : DOTA-v2 est conçu pour les images aériennes, ce qui le rend moins utile pour les tâches générales de détection d'objets en dehors de ce domaine.
Ensemble de données Roboflow 100
L'ensemble de données Roboflow 100 (RF100) a été créé par Roboflow avec le soutien d'Intel. Il peut être utilisé pour tester et évaluer les performances des modèles de détection d'objets. Cet ensemble de données de référence comprend 100 ensembles de données différents, sélectionnés parmi plus de 90 000 ensembles de données publics. Il contient plus de 224 000 images et 800 classes d'objets provenant de domaines tels que la santé, les vues aériennes et les jeux.
Voici quelques-uns des principaux avantages de l'utilisation de RF100 :
Large couverture de domaine : Il comprend des ensembles de données provenant de sept domaines, tels que l'imagerie médicale, les vues aériennes et l'exploration sous-marine.
Encourage l’amélioration du modèle : La variabilité et les défis spécifiques au domaine dans RF100 révèlent les lacunes des modèles actuels, ce qui pousse la recherche vers des solutions de détection d’objets plus adaptables et robustes.
Format d'image cohérent : Toutes les images sont redimensionnées à 640x640 pixels. Cela aide les utilisateurs à entraîner des modèles sans avoir à ajuster la taille des images.
Malgré ses atouts, RF100 présente également certains inconvénients à garder à l'esprit :
Limité en termes de tâches : RF100 est conçu pour la détection d'objets, il ne peut donc pas prendre en charge des tâches telles que la segmentation ou la classification.
Concentration sur les benchmarks : RF100 est principalement conçu comme un outil de benchmarking plutôt que pour entraîner des modèles pour des applications du monde réel, de sorte que ses résultats peuvent ne pas se traduire entièrement dans des scénarios de déploiement pratiques.
Variabilité de l'annotation : Étant donné que RF100 regroupe des ensembles de données provenant de sources participatives, il peut y avoir des incohérences dans la qualité de l'annotation et les pratiques d'étiquetage, ce qui peut avoir un impact sur l'évaluation et le réglage fin du modèle.
Ensemble de données COCO (objets communs dans leur contexte)
L'ensemble de données COCO est l'un des ensembles de données de vision par ordinateur les plus utilisés, offrant plus de 330 000 images avec des annotations d'images détaillées. Il est conçu pour la détection d'objets, la segmentation et la légende d'images, ce qui en fait une ressource précieuse pour de nombreux projets. Ses étiquettes détaillées, y compris les boîtes englobantes et les masques de segmentation, aident les systèmes à apprendre à analyser les images avec précision.
Cet ensemble de données est reconnu pour sa flexibilité et est utile pour diverses tâches, des projets simples aux projets complexes. Il est devenu une référence dans le domaine de la Vision IA, fréquemment utilisé dans les défis et les compétitions pour évaluer les performances des modèles.
Voici quelques-uns de ses points forts :
Données diverses et réalistes : L'ensemble de données comprend des images de scénarios réels avec plusieurs objets, des occlusions et des conditions d'éclairage variées.
Forte adoption par la communauté et la recherche : Utilisé dans les principales compétitions d'apprentissage automatique et la recherche, l'ensemble de données COCO dispose d'une documentation complète, de modèles pré-entraînés et d'un soutien communautaire actif.
Annotations riches et détaillées : L'ensemble de données COCO fournit des annotations très détaillées, y compris la segmentation des objets, les points clés et les légendes, ce qui le rend idéal pour les projets qui nécessitent une compréhension visuelle précise.
Voici quelques facteurs limitants à connaître également :
Exigences de calcul élevées : En raison de sa taille et de sa complexité, l'entraînement des modèles sur COCO peut nécessiter d'importantes ressources de calcul, ce qui le rend difficile pour les équipes disposant de matériel limité.
Déséquilibre des données : Certaines catégories d’objets ont beaucoup plus d’images que d’autres, ce qui peut entraîner un biais dans l’entraînement du modèle.
Structure d'annotation complexe : Les annotations détaillées de l'ensemble de données, bien que précieuses, peuvent être accablantes pour les débutants ou les petites équipes qui manquent d'expérience dans le travail avec des ensembles de données Vision AI structurés.
Open images V7 dataset
Open Images V7 est un ensemble de données open source massif, organisé par Google, comprenant plus de 9 millions d'images annotées pour 600 catégories d'objets. Il inclut une variété de types d'annotations et est idéal pour aborder des tâches complexes de vision par ordinateur. Son échelle et sa profondeur en font une ressource complète pour l'entraînement et le test de modèles de vision par ordinateur.
Fig 3. Un aperçu du jeu de données Open Images V7. Image de l'auteur.
De plus, la popularité du jeu de données Open Images V7 dans la recherche fournit de nombreuses ressources et exemples pour les utilisateurs. Cependant, sa taille massive peut rendre le téléchargement et le traitement longs, en particulier pour les petites équipes. Un autre problème est que certaines annotations peuvent être incohérentes, nécessitant des efforts supplémentaires pour nettoyer les données, et l'intégration n'est pas toujours transparente, ce qui signifie qu'une préparation supplémentaire peut être nécessaire.
Choisir le bon jeu de données
Choisir le bon jeu de données est essentiel pour assurer le succès de votre projet de vision par ordinateur. Le meilleur choix dépend de votre tâche spécifique - trouver une bonne correspondance aide votre modèle à acquérir les bonnes compétences. Il doit également s'intégrer facilement à vos outils, afin que vous puissiez vous concentrer davantage sur la construction de votre modèle et moins sur le dépannage.
Fig 4. Facteurs à prendre en compte pour choisir le bon jeu de données. Image de l'auteur.
Principaux points à retenir
Les ensembles de données de haute qualité sont l'épine dorsale de tout modèle de vision par ordinateur, aidant les systèmes à apprendre à interpréter les images avec précision. Les ensembles de données diversifiés et bien annotés sont particulièrement importants, car ils permettent aux modèles de fonctionner de manière fiable dans des scénarios réels et de réduire les erreurs causées par des données limitées ou de mauvaise qualité.
Ultralytics simplifie le processus d'accès et d'utilisation des jeux de données de vision par ordinateur, ce qui facilite la recherche des données appropriées pour votre projet. Le choix du bon jeu de données est une étape cruciale dans la construction d'un modèle performant, ce qui permet d'obtenir des résultats plus précis et plus percutants.