En cliquant sur "Accepter tous les cookies", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser l'utilisation du site et de nous aider dans nos efforts de marketing. Plus d'informations
Paramètres des cookies
En cliquant sur "Accepter tous les cookies", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser l'utilisation du site et de nous aider dans nos efforts de marketing. Plus d'informations
Rejoignez-nous pour examiner de plus près les meilleurs ensembles de données de vision par ordinateur de 2025. Découvrez comment des ensembles de données diversifiés et de haute qualité permettent d'élaborer des solutions d'intelligence artificielle plus intelligentes.
Saviez-vous que les données jouent un rôle dans presque tout ce que vous faites au quotidien ? Regarder une vidéo, prendre une photo ou consulter Google Maps contribue au flux constant d'informations capturées par plus de 75 milliards d' appareils connectés. Ces données constituent la base de l'intelligence artificielle (IA). En fait, les modèles avancés de vision par ordinateur comme Ultralytics YOLO11 s'appuient sur les données visuelles pour identifier des modèles, interpréter des images et donner un sens au monde qui nous entoure.
Il est intéressant de noter que la valeur des données n'est pas seulement une question de quantité. Il est plus important de savoir comment elles sont organisées et préparées. Si un ensemble de données est désordonné ou incomplet, il peut entraîner des erreurs. En revanche, lorsque les ensembles de données sont propres et diversifiés, ils permettent aux modèles de vision par ordinateur d'être plus performants, qu'il s'agisse de reconnaître des objets dans une foule ou d'analyser des images complexes. Les ensembles de données de haute qualité font toute la différence.
Dans cet article, nous allons explorer les meilleurs ensembles de données de vision par ordinateur de 2025 et voir comment ils contribuent à la construction de modèles de vision par ordinateur plus précis et plus efficaces. C'est parti !
Que sont les ensembles de données de vision par ordinateur ?
Un ensemble de données de vision par ordinateur est une collection d'images ou de vidéos qui permet aux systèmes de vision par ordinateur d'apprendre à comprendre et à reconnaître les informations visuelles. Ces ensembles de données sont accompagnés d'étiquettes ou d'annotations qui aident les modèles à reconnaître des objets, des personnes, des scènes et des modèles dans les données.
Ils peuvent être utilisés pour former des modèles de vision artificielle, les aidant à améliorer des tâches telles que l'identification de visages, la détection d'objets ou l'analyse de scènes. Plus l'ensemble de données est de qualité (bien organisé, diversifié et précis), plus le modèle d'IA de vision est performant, ce qui permet de mettre au point des technologies plus intelligentes et plus utiles dans la vie de tous les jours.
Comment construire un ensemble de données de vision par ordinateur
Construire un ensemble de données de vision par ordinateur, c'est comme préparer des notes d'étude pour enseigner à quelqu'un comment voir et comprendre le monde. Tout commence par la collecte d'images et de vidéos correspondant à l'application spécifique que vous développez.
Un ensemble de données idéal comprend divers exemples d'objets intéressants, capturés sous différents angles, dans diverses conditions d'éclairage et sur plusieurs arrière-plans et environnements. Cette variété garantit que le modèle de vision par ordinateur apprend à reconnaître des modèles avec précision et qu'il fonctionne de manière fiable dans des scénarios du monde réel.
Fig. 1. Construction de l'ensemble de données de vision parfaite. Image de l'auteur.
Après avoir recueilli des images et des vidéos pertinentes, l'étape suivante consiste à étiqueter les données. Ce processus consiste à ajouter des étiquettes, des annotations ou des descriptions aux données afin que l'IA puisse comprendre le contenu de chaque image ou vidéo.
Les étiquettes peuvent inclure des noms d'objets, des emplacements, des limites ou d'autres détails pertinents qui aident à former le modèle à reconnaître et à interpréter les informations visuelles avec précision. L'étiquetage des données transforme une simple collection d'images en un ensemble de données structuré qui peut être utilisé pour former un modèle de vision par ordinateur.
L'apprentissage des modèles nécessite des données de haute qualité
Vous vous demandez peut-être ce qui fait la qualité d'un ensemble de données. De nombreux facteurs entrent en jeu, comme l'exactitude de l'étiquetage, la diversité et la cohérence. Par exemple, si plusieurs annotateurs étiquettent un ensemble de données de détection d'objets pour identifier les oreilles d'un chat, l'un d'entre eux peut les étiqueter comme faisant partie de la tête, tandis qu'un autre les étiquette séparément comme des oreilles. Cette incohérence peut perturber le modèle et affecter sa capacité à apprendre correctement.
Voici un aperçu rapide des qualités d'un ensemble de données idéal pour la vision par ordinateur :
Des étiquettes claires: Chaque image est annotée avec précision par des étiquettes cohérentes et précises.
Des données variées: L'ensemble de données comprend différents objets, arrière-plans, conditions d'éclairage et angles pour aider le modèle à fonctionner correctement dans diverses situations.
Images à haute résolution: Des images nettes et détaillées facilitent l'apprentissage et la reconnaissance des caractéristiques par le modèle.
Ultralytics prend en charge différents ensembles de données
Les modèles YOLO d'Ultralytics, comme YOLO11, sont conçus pour fonctionner avec des ensembles de données dans un format de fichier YOLO spécifique. Bien qu'il soit facile de convertir vos propres données dans ce format, nous proposons également une option sans souci pour ceux qui souhaitent commencer à expérimenter immédiatement.
Le package Ultralytics Python prend en charge un large éventail d'ensembles de données de vision par ordinateur, ce qui vous permet de vous plonger dans des projets utilisant des tâches telles que la détection d'objets, la segmentation d'instances ou l'estimation de la pose sans aucune configuration supplémentaire.
Les utilisateurs peuvent facilement accéder à des ensembles de données prêts à l'emploi tels que COCO, DOTA-v2.0, Open Images V7 et ImageNet en spécifiant le nom de l'ensemble de données comme l'un des paramètres de la fonction d'apprentissage. L'ensemble de données est alors automatiquement téléchargé et préconfiguré, ce qui vous permet de vous concentrer sur la construction et l'affinement de vos modèles.
Les 5 principaux ensembles de données de vision par ordinateur en 2025
Les progrès de l'IA visuelle reposent sur des ensembles de données diversifiés et à grande échelle qui stimulent l'innovation et permettent des percées. Jetons un coup d'œil à quelques-uns des ensembles de données les plus importants, soutenus par Ultralytics, qui influencent les modèles de vision artificielle.
Jeu de données ImageNet
ImageNet, créé par Fei-Fei Li et son équipe à l'université de Princeton en 2007 et présenté en 2009, est un vaste ensemble de données comprenant plus de 14 millions d'images étiquetées. Il est largement utilisé pour former des systèmes à la reconnaissance et à la catégorisation de différents objets. Sa conception structurée le rend particulièrement utile pour apprendre aux modèles à classer les images avec précision. Bien que bien documenté, il se concentre principalement sur la classification d'images et manque d'annotations détaillées pour des tâches telles que la détection d'objets.
Voici un aperçu des principaux atouts d'ImageNet :
Diversité : Avec des images couvrant plus de 20 000 catégories, ImageNet offre un ensemble de données vaste et varié qui améliore l'apprentissage et la généralisation des modèles.
Organisation structurée : Les images sont méticuleusement classées à l'aide de la hiérarchie WordNet, ce qui facilite l'extraction efficace des données et l'entraînement systématique des modèles.
Documentation complète: Des recherches approfondies et des années d'études rendent ImageNet accessible aux débutants comme aux experts, fournissant des informations et des conseils précieux pour les projets de vision par ordinateur.
Cependant, comme tout ensemble de données, il a ses limites. Voici quelques-uns des défis à relever :
Exigences informatiques : Sa taille massive peut poser des problèmes aux petites équipes disposant de ressources informatiques limitées.
Manque de données temporelles : Comme il ne contient que des images statiques, il peut ne pas répondre aux besoins des applications nécessitant des données vidéo ou temporelles.
Images obsolètes : Certaines images de l'ensemble de données sont anciennes et peuvent ne pas refléter les objets, les styles ou les environnements actuels, ce qui peut réduire leur pertinence pour les applications modernes.
Ensemble de données DOTA-v2.0
Le jeu de données DOTA-v2.0, où DOTA signifie Dataset for Object Detection in Aerial Images (jeu de données pour la détection d'objets dans les images aériennes), est une vaste collection d'images aériennes créées spécialement pour la détection d'objets par boîtes de délimitation orientées (OBB). Dans la détection OBB, les boîtes de délimitation tournées sont utilisées pour s'aligner plus précisément sur l'orientation réelle des objets dans l'image. Cette méthode fonctionne particulièrement bien pour les images aériennes, où les objets apparaissent souvent sous différents angles, ce qui permet une localisation plus précise et une meilleure détection en général.
Cet ensemble de données comprend plus de 11 000 images et plus de 1,7 million de boîtes de délimitation orientées dans 18 catégories d'objets. Les images vont de 800×800 à 20 000×20 000 pixels et comprennent des objets tels que des avions, des bateaux et des bâtiments.
Fig. 2. Exemples d'images et d'annotations de l'ensemble de données DOTA-v2.0. Image par l'auteur.
Grâce à ses annotations détaillées, DOTA-v2.0 est devenu un choix populaire pour les projets de télédétection et de surveillance aérienne. Voici quelques-unes des principales caractéristiques de DOTA-v2.0 :
Diverses catégories d'objets : Il couvre de nombreux types d'objets différents, tels que des véhicules, des ports et des réservoirs de stockage, ce qui permet aux modèles de se familiariser avec divers objets du monde réel.
Annotations de haute qualité : Des annotateurs experts ont fourni des boîtes de délimitation précisément orientées qui montrent clairement les formes et les directions des objets.
Images multi-échelles : L'ensemble de données comprend des images de différentes tailles, ce qui permet aux modèles d'apprendre à détecter des objets à la fois à petite et à grande échelle.
Bien que DOTA-v2 possède de nombreux atouts, voici quelques limitations que les utilisateurs doivent garder à l'esprit :
Etapes de téléchargement supplémentaires : En raison de la manière dont l'ensemble de données DOTA est géré, DOTA-v2.0 nécessite une étape d'installation supplémentaire. Vous devez d'abord télécharger les images DOTA-v1.0, puis ajouter les images supplémentaires et les annotations mises à jour pour DOTA-v2.0 afin de compléter l'ensemble de données.
Annotations complexes : Les boîtes de délimitation orientées peuvent nécessiter un effort supplémentaire lors de l'apprentissage du modèle.
Portée limitée : DOTA-v2 est conçu pour les images aériennes, ce qui le rend moins utile pour les tâches générales de détection d'objets en dehors de ce domaine.
Ensemble de données Roboflow 100
L'ensemble de données Roboflow 100 (RF100) a été créé par Roboflow avec le soutien d'Intel. Il peut être utilisé pour tester et étalonner le fonctionnement des modèles de détection d'objets. Cet ensemble de données de référence comprend 100 ensembles de données différents choisis parmi plus de 90 000 ensembles de données publiques. Il contient plus de 224 000 images et 800 classes d'objets dans des domaines tels que les soins de santé, les vues aériennes et les jeux.
Voici quelques-uns des principaux avantages de l'utilisation du RF100 :
Large couverture des domaines : Il comprend des ensembles de données provenant de sept domaines, tels que l'imagerie médicale, les vues aériennes et l'exploration sous-marine.
Encourage l'amélioration des modèles : La variabilité et les défis spécifiques au domaine de la RF100 révèlent les lacunes des modèles actuels, ce qui stimule la recherche de solutions de détection d'objets plus adaptables et plus robustes.
Format d'image cohérent : Toutes les images sont redimensionnées à 640x640 pixels. Cela permet aux utilisateurs de former des modèles sans avoir à ajuster la taille des images.
Malgré ses atouts, le RF100 présente également certains inconvénients qu'il convient de garder à l'esprit :
Limité en termes de tâches : Le RF100 est conçu pour la détection d'objets et ne peut donc pas prendre en charge des tâches telles que la segmentation ou la classification.
L'accent est mis sur l'analyse comparative : Le RF100 est principalement conçu comme un outil d'analyse comparative plutôt que pour former des modèles pour des applications réelles, de sorte que ses résultats peuvent ne pas être entièrement transposés dans des scénarios de déploiement pratiques.
Variabilité des annotations: Étant donné que le RF100 regroupe des ensembles de données provenant de la foule, il peut y avoir des incohérences dans la qualité des annotations et les pratiques d'étiquetage, ce qui peut avoir une incidence sur l'évaluation et l'affinement des modèles.
Ensemble de données COCO (Common objects in context)
L'ensemble de données COCO est l'un des ensembles de données de vision par ordinateur les plus utilisés. Il comprend plus de 330 000 images accompagnées d'annotations détaillées. Il est conçu pour la détection d'objets, la segmentation et le sous-titrage d'images, ce qui en fait une ressource précieuse pour de nombreux projets. Ses étiquettes détaillées, y compris les boîtes de délimitation et les masques de segmentation, permettent aux systèmes d'apprendre à analyser les images avec précision.
Cet ensemble de données est connu pour sa flexibilité et est utile pour diverses tâches, des projets simples aux projets complexes. Il est devenu un standard dans le domaine de l'IA de la vision, fréquemment utilisé dans les défis et les compétitions pour évaluer la performance des modèles.
Voici quelques-uns de ses points forts :
Des données diverses et réalistes: L'ensemble de données comprend des images provenant de scénarios réels avec de multiples objets, des occlusions et des conditions d'éclairage variées.
Forte adoption par la communauté et la recherche: Utilisé dans les principaux concours d'apprentissage automatique et dans la recherche, l'ensemble de données COCO dispose d'une documentation complète, de modèles pré-entraînés et d'un soutien actif de la part de la communauté.
Annotations riches et détaillées: Le jeu de données COCO fournit des annotations très détaillées, y compris la segmentation des objets, les points clés et les légendes, ce qui en fait un outil idéal pour les projets nécessitant une compréhension visuelle précise.
Voici également quelques facteurs limitatifs à prendre en compte :
Exigences élevées en matière de calcul: En raison de sa taille et de sa complexité, l'entraînement des modèles sur COCO peut nécessiter d'importantes ressources informatiques, ce qui constitue un défi pour les équipes disposant d'un matériel limité.
Déséquilibre des données: Certaines catégories d'objets ont beaucoup plus d'images que d'autres, ce qui peut entraîner un biais dans l'apprentissage du modèle.
Structure d'annotation complexe: Les annotations détaillées de l'ensemble de données, bien que précieuses, peuvent être accablantes pour les débutants ou les petites équipes qui manquent d'expérience dans le travail avec des ensembles de données Vision AI structurés.
Images ouvertes V7
Open Images V7 est un vaste ensemble de données à code source ouvert créé par Google, qui comprend plus de 9 millions d'images avec des annotations pour 600 catégories d'objets. Il comprend une variété de types d'annotations et est idéal pour s'attaquer à des tâches complexes de vision par ordinateur. Son ampleur et sa profondeur en font une ressource complète pour la formation et le test de modèles de vision par ordinateur.
Fig. 3. Un aperçu de l'ensemble de données Open Images V7. Image de l'auteur.
De plus, la popularité du jeu de données Open Images V7 dans le domaine de la recherche fournit de nombreuses ressources et exemples dont les utilisateurs peuvent s'inspirer. Toutefois, sa taille imposante peut rendre le téléchargement et le traitement fastidieux, en particulier pour les petites équipes. Par ailleurs, certaines annotations peuvent être incohérentes, ce qui nécessite un effort supplémentaire pour nettoyer les données, et l'intégration n'est pas toujours transparente, ce qui signifie qu'une préparation supplémentaire peut s'avérer nécessaire.
Choisir le bon ensemble de données
Le choix du bon ensemble de données est un élément important de la réussite de votre projet de vision par ordinateur. Le meilleur choix dépend de votre tâche spécifique - trouver une bonne correspondance permet à votre modèle d'acquérir les bonnes compétences. Il doit également s'intégrer facilement à vos outils, afin que vous puissiez vous concentrer davantage sur la construction de votre modèle et moins sur le dépannage.
Fig. 4. Facteurs permettant de choisir le bon ensemble de données. Image de l'auteur.
Principaux enseignements
Les ensembles de données de haute qualité constituent l'épine dorsale de tout modèle de vision par ordinateur, car ils permettent aux systèmes d'apprendre à interpréter les images avec précision. Des ensembles de données diversifiés et bien annotés sont particulièrement importants, car ils permettent aux modèles de fonctionner de manière fiable dans des scénarios réels et de réduire les erreurs causées par des données limitées ou de mauvaise qualité.
Ultralytics simplifie le processus d'accès et de travail avec les ensembles de données de vision par ordinateur, en facilitant la recherche des données appropriées pour votre projet. Le choix du bon ensemble de données est une étape cruciale dans la construction d'un modèle performant, conduisant à des résultats plus précis et plus percutants.