Connectez-vous à YOLO Vision 2025 !
25 septembre 2025
10:00 — 18:00, heure d'été britannique
Événement hybride
Yolo Vision 2024
Glossaire

Ensemble de données de référence (Benchmark Dataset)

Découvrez comment les ensembles de données de référence stimulent l'innovation en matière d'IA en permettant une évaluation équitable des modèles, la reproductibilité et les progrès de l'apprentissage automatique.

Un ensemble de données de référence est un ensemble de données standardisé et de haute qualité utilisé en apprentissage automatique (ML) pour évaluer et comparer les performances de différents algorithmes et modèles de manière équitable et reproductible. Ces ensembles de données sont soigneusement sélectionnés et largement acceptés par la communauté de recherche, servant de base commune pour mesurer les progrès dans des tâches spécifiques telles que la détection d'objets ou la classification d'images. En testant les modèles par rapport aux mêmes données et aux mêmes métriques d'évaluation, les chercheurs et les développeurs peuvent déterminer objectivement quelles approches sont les plus efficaces, les plus rapides ou les plus efficientes. L'utilisation de benchmarks est fondamentale pour faire progresser l'état de l'art en intelligence artificielle (IA).

L'importance du benchmarking

Dans le domaine en évolution rapide de la vision par ordinateur (CV), les ensembles de données de référence sont indispensables. Ils fournissent une base stable pour évaluer les améliorations et les innovations des modèles. Sans eux, il serait difficile de savoir si une nouvelle architecture de modèle ou une nouvelle technique d'entraînement représente réellement un progrès ou si ses performances sont simplement dues au fait qu'elle a été testée sur un ensemble de données différent, potentiellement plus facile. Les classements publics, souvent associés à des défis tels que l'ImageNet Large Scale Visual Recognition Challenge (ILSVRC), utilisent ces ensembles de données pour favoriser une concurrence saine et suivre de manière transparente les progrès. Ce processus encourage le développement de modèles plus robustes et généralisables, ce qui est crucial pour le déploiement de modèles dans le monde réel.

Exemples concrets

  1. Comparaison des modèles de détection d'objets : Lorsque Ultralytics développe un nouveau modèle comme YOLO11, ses performances sont rigoureusement testées sur des ensembles de données de référence standard tels que COCO. Les résultats, mesurés par des métriques comme la précision moyenne (mAP), sont comparés aux versions précédentes (YOLOv8, YOLOv10) et à d'autres modèles de pointe. Ces comparaisons de modèles aident les utilisateurs à choisir le meilleur modèle pour leurs besoins. Les plateformes comme Ultralytics HUB permettent aux utilisateurs d'entraîner des modèles et de les comparer sur des données personnalisées.
  2. Faire progresser la conduite autonome : Les entreprises qui développent des technologies pour les véhicules autonomes s'appuient fortement sur des benchmarks tels que Argoverse ou nuScenes. Ces ensembles de données contiennent des scénarios de conduite urbaine complexes avec des annotations détaillées pour les voitures, les piétons et les cyclistes. En évaluant leurs modèles de perception sur ces benchmarks, les entreprises peuvent mesurer les améliorations en termes de précision de la détection, de fiabilité du suivi et de robustesse globale du système, ce qui est essentiel pour garantir la sécurité de l'IA pour les voitures autonomes.

Benchmark vs. Autres jeux de données

Il est important de distinguer les ensembles de données de référence des autres divisions de données utilisées dans le cycle de vie du ML :

  • Données d'entraînement : Utilisées pour enseigner au modèle en ajustant ses paramètres en fonction d'exemples d'entrée et de leurs étiquettes correspondantes. Il s'agit généralement de la plus grande partie des données. Des techniques telles que l'augmentation des données sont souvent appliquées ici.
  • Données de validation : Utilisées pendant l'entraînement pour régler les hyperparamètres du modèle (comme le taux d'apprentissage ou les choix d'architecture) et fournir une estimation non biaisée des compétences du modèle. Elles aident à prévenir le surapprentissage des données d'entraînement.
  • Données de test : Utilisées après que le modèle est entièrement entraîné pour fournir une évaluation finale et non biaisée de ses performances sur des données non vues.

Bien qu'un jeu de données de référence serve souvent de jeu de test standardisé, son objectif principal est plus large : fournir une norme commune de comparaison dans l'ensemble de la communauté de recherche. De nombreux jeux de données de référence sont répertoriés et suivis sur des plateformes comme Papers with Code, qui héberge des classements pour diverses tâches d'apprentissage automatique. D'autres jeux de données notables incluent Open Images V7 de Google et le défi Pascal VOC. L'accès à ces jeux de données de vision par ordinateur de haute qualité est essentiel pour quiconque construit des systèmes d'IA fiables.

Rejoignez la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant
Lien copié dans le presse-papiers