En cliquant sur « Accepter tous les cookies », vous acceptez le stockage de cookies sur votre appareil pour améliorer la navigation sur le site, analyser son utilisation et contribuer à nos efforts de marketing. Plus d’infos
Paramètres des cookies
En cliquant sur « Accepter tous les cookies », vous acceptez le stockage de cookies sur votre appareil pour améliorer la navigation sur le site, analyser son utilisation et contribuer à nos efforts de marketing. Plus d’infos
Joignez-vous à nous pour examiner de plus près les meilleurs ensembles de données de vision par ordinateur de 2025. Découvrez comment des ensembles de données diversifiés et de haute qualité permettent de créer des solutions de Vision IA plus intelligentes.
Saviez-vous que les données jouent un rôle dans presque tout ce que vous faites au quotidien ? Regarder une vidéo, prendre une photo ou consulter Google Maps contribue au flux constant d'informations capturées par plus de 75 milliards d' appareils connectés. Ces données constituent la base de l'intelligence artificielle (IA). En fait, des modèles avancés de vision par ordinateur comme Ultralytics YOLO11 s'appuient sur des données visuelles pour identifier des modèles, interpréter des images et donner un sens au monde qui nous entoure.
Il est intéressant de noter que la valeur des données ne se résume pas à la quantité. L'important est de savoir dans quelle mesure elles sont organisées et préparées. Si un ensemble de données est désordonné ou incomplet, cela peut entraîner des erreurs. Cependant, lorsque les ensembles de données sont propres et diversifiés, ils aident les modèles de vision par ordinateur à mieux fonctionner, qu'il s'agisse de reconnaître des objets dans une foule ou d'analyser des éléments visuels complexes. Des ensembles de données de haute qualité font toute la différence.
Dans cet article, nous explorerons les meilleurs ensembles de données de vision par ordinateur de 2025 et verrons comment ils contribuent à la création de modèles de vision par ordinateur plus précis et efficaces. Commençons !
Que sont les ensembles de données de vision par ordinateur ?
Un ensemble de données de vision par ordinateur est une collection d'images ou de vidéos qui aident les systèmes de vision par ordinateur à apprendre à comprendre et à reconnaître les informations visuelles. Ces ensembles de données sont fournis avec des étiquettes ou des annotations qui aident les modèles à reconnaître les objets, les personnes, les scènes et les motifs dans les données.
Ils peuvent être utilisés pour entraîner des modèles de vision par ordinateur, les aidant à améliorer des tâches telles que l'identification de visages, la détection d'objets ou l'analyse de scènes. Plus l'ensemble de données est de qualité (bien organisé, diversifié et précis), meilleures sont les performances du modèle de Vision IA, ce qui conduit à une technologie plus intelligente et plus utile dans la vie quotidienne.
Comment construire un jeu de données de vision par ordinateur
La création d'un jeu de données de vision par ordinateur s'apparente à la préparation de notes d'étude pour apprendre à quelqu'un à voir et à comprendre le monde. Tout commence par la collecte d'images et de vidéos qui correspondent à l'application spécifique que vous développez.
Un ensemble de données idéal comprend divers exemples des objets d'intérêt, capturés sous différents angles, dans diverses conditions d'éclairage et dans de multiples arrière-plans et environnements. Cette variété garantit que le modèle de vision par ordinateur apprend à reconnaître les motifs avec précision et fonctionne de manière fiable dans des scénarios réels.
Fig. 1. Création du dataset de vision parfait. Image par l'auteur.
Après avoir collecté des images et des vidéos pertinentes, l'étape suivante consiste à l'étiquetage des données. Ce processus implique l'ajout de balises, d'annotations ou de descriptions aux données afin que l'IA puisse comprendre ce que chaque image ou vidéo contient.
Les étiquettes peuvent inclure les noms des objets, leurs emplacements, leurs limites ou d'autres détails pertinents qui aident à entraîner le modèle à reconnaître et à interpréter avec précision les informations visuelles. L'étiquetage des données transforme une simple collection d'images en un ensemble de données structurées qui peut être utilisé pour entraîner un modèle de vision par ordinateur.
L'entraînement du modèle nécessite des données de haute qualité
Vous vous demandez peut-être ce qui fait la qualité d'un ensemble de données. De nombreux facteurs sont impliqués, comme l'étiquetage précis, la diversité et la cohérence. Par exemple, si plusieurs annotateurs étiquettent un ensemble de données de détection d'objets pour identifier les oreilles de chat, l'un peut les étiqueter comme faisant partie de la tête tandis qu'un autre les étiquette séparément comme des oreilles. Cette incohérence peut dérouter le modèle et affecter sa capacité à apprendre correctement.
Voici un aperçu rapide des qualités d'un ensemble de données de vision par ordinateur idéal :
Étiquettes claires : Chaque image est annotée avec précision avec des étiquettes cohérentes et précises.
Données diverses : L'ensemble de données comprend différents objets, arrière-plans, conditions d'éclairage et angles pour aider le modèle à bien fonctionner dans diverses situations.
Images haute résolution : Des images nettes et détaillées permettent au modèle d'apprendre et de reconnaître plus facilement les caractéristiques.
Ultralytics prend en charge différents ensembles de données
Les modèlesYOLO d'Ultralytics , comme YOLO11, sont conçus pour fonctionner avec des ensembles de données dans un format de fichier YOLO spécifique. Bien qu'il soit facile de convertir vos propres données dans ce format, nous proposons également une option sans souci pour ceux qui souhaitent commencer à expérimenter immédiatement.
Le packageUltralytics Python prend en charge un large éventail d'ensembles de données de vision par ordinateur, ce qui vous permet de vous plonger dans des projets utilisant des tâches telles que la détection d'objets, la segmentation d'instances ou l'estimation de la pose sans aucune configuration supplémentaire.
Les utilisateurs peuvent facilement accéder à des ensembles de données prêts à l'emploi tels que COCO, DOTA-v2.0, Open Images V7 et ImageNet en spécifiant le nom de l'ensemble de données comme l'un des paramètres de la fonction d'apprentissage. L'ensemble de données est alors automatiquement téléchargé et préconfiguré, ce qui vous permet de vous concentrer sur la construction et l'affinement de vos modèles.
Top 5 des ensembles de données de vision par ordinateur en 2025
Les progrès de l'IA visuelle reposent sur des ensembles de données diversifiés et à grande échelle qui stimulent l'innovation et permettent des percées. Jetons un coup d'œil à quelques-uns des ensembles de données les plus importants, soutenus par Ultralytics, qui influencent les modèles de vision artificielle.
Jeu de données ImageNet
ImageNetImageNet, créé par Fei-Fei Li et son équipe à l'université de Princeton en 2007 et présenté en 2009, est un vaste ensemble de données comprenant plus de 14 millions d'images étiquetées. Il est largement utilisé pour former des systèmes à la reconnaissance et à la catégorisation de différents objets. Sa conception structurée le rend particulièrement utile pour apprendre aux modèles à classify images avec précision. Bien que bien documenté, il se concentre principalement sur la classification d'images et manque d'annotations détaillées pour des tâches telles que la détection d'objets.
Voici un aperçu des principaux atouts d'ImageNet:
Diversité : Avec des images couvrant plus de 20 000 catégories, ImageNet offre un ensemble de données vaste et varié qui améliore l'apprentissage et la généralisation des modèles.
Organisation structurée : Les images sont méticuleusement classées à l'aide de la hiérarchie WordNet, ce qui facilite la récupération efficace des données et l'entraînement systématique des modèles.
Documentation complète: Des recherches approfondies et des années d'études rendent ImageNet accessible aux débutants comme aux experts, fournissant des informations et des conseils précieux pour les projets de vision par ordinateur.
Cependant, comme tout ensemble de données, il a ses limites. Voici quelques-uns des défis à prendre en compte :
Besoins en calcul : Sa taille massive peut poser des problèmes aux petites équipes disposant de ressources informatiques limitées.
Manque de données temporelles : Puisqu'il ne contient que des images statiques, il peut ne pas répondre aux besoins des applications nécessitant des données vidéo ou temporelles.
Images obsolètes : Certaines images de l'ensemble de données sont plus anciennes et peuvent ne pas refléter les objets, les styles ou les environnements actuels, ce qui pourrait réduire la pertinence pour les applications modernes.
Ensemble de données DOTA-v2.0
L'ensemble de données DOTA-v2.0, où DOTA signifie Dataset for Object Detection in Aerial Images (ensemble de données pour la détection d'objets dans les images aériennes), est une vaste collection d'images aériennes créée spécialement pour la détection d'objets par boîtes englobantes orientées (OBB). Dans la détection OBB, des boîtes englobantes pivotées sont utilisées pour s'aligner plus précisément sur l'orientation réelle des objets dans l'image. Cette méthode fonctionne particulièrement bien pour l'imagerie aérienne, où les objets apparaissent souvent sous différents angles, ce qui permet une localisation plus précise et une meilleure détection globale.
Cet ensemble de données comprend plus de 11 000 images et plus de 1,7 million de boîtes englobantes orientées dans 18 catégories d'objets. Les images varient de 800×800 à 20 000×20 000 pixels et comprennent des objets tels que des avions, des navires et des bâtiments.
Fig. 2. Exemples d'images et d'annotations de l'ensemble de données DOTA-v2.0. Image par l'auteur.
En raison de ses annotations détaillées, DOTA-v2.0 est devenu un choix populaire pour les projets de télédétection et de surveillance aérienne. Voici quelques-unes des principales caractéristiques de DOTA-v2.0 :
Diverses catégories d'objets : Il couvre de nombreux types d'objets différents, tels que des véhicules, des ports et des réservoirs de stockage, ce qui permet aux modèles de s'exposer à divers objets du monde réel.
Annotations de haute qualité : Des annotateurs experts ont fourni des boîtes englobantes précisément orientées qui montrent clairement les formes et les directions des objets.
Images multi-échelles : L'ensemble de données comprend des images de différentes tailles, ce qui permet aux modèles d'apprendre à detect objets à la fois à petite et à grande échelle.
Bien que DOTA-v2 ait de nombreux atouts, voici quelques limitations que les utilisateurs doivent garder à l'esprit :
Étapes de téléchargement supplémentaires : En raison de la manière dont l'ensemble de données DOTA est géré, DOTA-v2.0 nécessite une étape de configuration supplémentaire. Vous devez d'abord télécharger les images DOTA-v1.0, puis ajouter les images supplémentaires et les annotations mises à jour pour DOTA-v2.0 afin de compléter l'ensemble de données.
Annotations complexes : Les boîtes englobantes orientées peuvent nécessiter un effort supplémentaire à gérer pendant l'entraînement du modèle.
Portée limitée : DOTA-v2 est conçu pour les images aériennes, ce qui le rend moins utile pour les tâches générales de détection d'objets en dehors de ce domaine.
Ensemble de données Roboflow 100
L'ensemble de données Roboflow 100 (RF100) a été créé par Roboflow avec le soutien d'Intel. Il peut être utilisé pour tester et étalonner le fonctionnement des modèles de détection d'objets. Cet ensemble de données de référence comprend 100 ensembles de données différents choisis parmi plus de 90 000 ensembles de données publiques. Il contient plus de 224 000 images et 800 classes d'objets dans des domaines tels que les soins de santé, les vues aériennes et les jeux.
Voici quelques-uns des principaux avantages de l'utilisation de RF100 :
Large couverture de domaine : Il comprend des ensembles de données provenant de sept domaines, tels que l'imagerie médicale, les vues aériennes et l'exploration sous-marine.
Encourage l’amélioration du modèle : La variabilité et les défis spécifiques au domaine dans RF100 révèlent les lacunes des modèles actuels, ce qui pousse la recherche vers des solutions de détection d’objets plus adaptables et robustes.
Format d'image cohérent : Toutes les images sont redimensionnées à 640x640 pixels. Cela aide les utilisateurs à entraîner des modèles sans avoir à ajuster la taille des images.
Malgré ses atouts, RF100 présente également certains inconvénients à garder à l'esprit :
Limité en termes de tâches : RF100 est conçu pour la détection d'objets, il ne peut donc pas prendre en charge des tâches telles que la segmentation ou la classification.
Concentration sur les benchmarks : RF100 est principalement conçu comme un outil de benchmarking plutôt que pour entraîner des modèles pour des applications du monde réel, de sorte que ses résultats peuvent ne pas se traduire entièrement dans des scénarios de déploiement pratiques.
Variabilité de l'annotation : Étant donné que RF100 regroupe des ensembles de données provenant de sources participatives, il peut y avoir des incohérences dans la qualité de l'annotation et les pratiques d'étiquetage, ce qui peut avoir un impact sur l'évaluation et le réglage fin du modèle.
Ensemble de données COCO (Common objects in context)
L'ensemble de donnéesCOCO est l'un des ensembles de données de vision par ordinateur les plus utilisés. Il comprend plus de 330 000 images accompagnées d'annotations détaillées. Il est conçu pour la détection d'objets, la segmentation et le sous-titrage d'images, ce qui en fait une ressource précieuse pour de nombreux projets. Ses étiquettes détaillées, y compris les boîtes de délimitation et les masques de segmentation, permettent aux systèmes d'apprendre à analyser les images avec précision.
Cet ensemble de données est reconnu pour sa flexibilité et est utile pour diverses tâches, des projets simples aux projets complexes. Il est devenu une référence dans le domaine de la Vision IA, fréquemment utilisé dans les défis et les compétitions pour évaluer les performances des modèles.
Voici quelques-uns de ses points forts :
Données diverses et réalistes : L'ensemble de données comprend des images de scénarios réels avec plusieurs objets, des occlusions et des conditions d'éclairage variées.
Forte adoption par la communauté et la recherche: Utilisé dans les principaux concours d'apprentissage automatique et dans la recherche, l'ensemble de données COCO dispose d'une documentation complète, de modèles pré-entraînés et d'un soutien actif de la part de la communauté.
Annotations riches et détaillées: Le jeu de données COCO fournit des annotations très détaillées, y compris la segmentation des objets, les points clés et les légendes, ce qui en fait un outil idéal pour les projets nécessitant une compréhension visuelle précise.
Voici quelques facteurs limitants à connaître également :
Exigences élevées en matière de calcul: En raison de sa taille et de sa complexité, l'entraînement des modèles sur COCO peut nécessiter d'importantes ressources informatiques, ce qui constitue un défi pour les équipes disposant d'un matériel limité.
Déséquilibre des données : Certaines catégories d’objets ont beaucoup plus d’images que d’autres, ce qui peut entraîner un biais dans l’entraînement du modèle.
Structure d'annotation complexe : Les annotations détaillées de l'ensemble de données, bien que précieuses, peuvent être accablantes pour les débutants ou les petites équipes qui manquent d'expérience dans le travail avec des ensembles de données Vision AI structurés.
Open images V7 dataset
Open Images V7 est un vaste ensemble de données à code source ouvert créé par Google, qui comprend plus de 9 millions d'images avec des annotations pour 600 catégories d'objets. Il comprend une variété de types d'annotations et est idéal pour s'attaquer à des tâches complexes de vision par ordinateur. Son ampleur et sa profondeur en font une ressource complète pour l'entraînement et le test de modèles de vision par ordinateur.
Fig 3. Un aperçu du jeu de données Open Images V7. Image de l'auteur.
De plus, la popularité du jeu de données Open Images V7 dans la recherche fournit de nombreuses ressources et exemples pour les utilisateurs. Cependant, sa taille massive peut rendre le téléchargement et le traitement longs, en particulier pour les petites équipes. Un autre problème est que certaines annotations peuvent être incohérentes, nécessitant des efforts supplémentaires pour nettoyer les données, et l'intégration n'est pas toujours transparente, ce qui signifie qu'une préparation supplémentaire peut être nécessaire.
Choisir le bon jeu de données
Choisir le bon jeu de données est essentiel pour assurer le succès de votre projet de vision par ordinateur. Le meilleur choix dépend de votre tâche spécifique - trouver une bonne correspondance aide votre modèle à acquérir les bonnes compétences. Il doit également s'intégrer facilement à vos outils, afin que vous puissiez vous concentrer davantage sur la construction de votre modèle et moins sur le dépannage.
Fig 4. Facteurs à prendre en compte pour choisir le bon jeu de données. Image de l'auteur.
Principaux points à retenir
Les ensembles de données de haute qualité sont l'épine dorsale de tout modèle de vision par ordinateur, aidant les systèmes à apprendre à interpréter les images avec précision. Les ensembles de données diversifiés et bien annotés sont particulièrement importants, car ils permettent aux modèles de fonctionner de manière fiable dans des scénarios réels et de réduire les erreurs causées par des données limitées ou de mauvaise qualité.
Ultralytics simplifie le processus d'accès et de travail avec les ensembles de données de vision par ordinateur, en facilitant la recherche des données appropriées pour votre projet. Le choix du bon ensemble de données est une étape cruciale dans la construction d'un modèle performant, conduisant à des résultats plus précis et plus percutants.