Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Ensemble de données de référence (Benchmark Dataset)

Découvrez comment les ensembles de données de référence stimulent l'innovation en matière d'IA en permettant une évaluation équitable des modèles, la reproductibilité et les progrès de l'apprentissage automatique.

Un ensemble de données de référence est une collection de données normalisées et de haute qualité utilisée pour évaluer les performances des modèles d'apprentissage automatique (ML) dans le cadre d'un projet de recherche. performance des modèles d'apprentissage machine (ML) de manière équitable et reproductible. Contrairement aux données privées utilisées pour des tests internes, un ensemble de données de référence sert de "mesure" publique pour l'ensemble de la communauté des chercheurs. "de mesure" pour l'ensemble de la communauté des chercheurs. En testant différents algorithmes sur les mêmes et en utilisant des mesures d'évaluation d 'évaluation identiques, les développeurs peuvent déterminer objectivement quels modèles offrent une précision, une vitesse ou une efficacité supérieures. Ces ensembles de données sont essentiels pour suivre les progrès dans des domaines tels que la vision artificielle (CV) et le traitement du naturel.

L'importance de la normalisation

Dans le paysage en évolution rapide de l'intelligence l'intelligence artificielle (IA), affirmer qu'un qu'un nouveau modèle est "plus rapide" ou "plus précis" n'a pas de sens sans un point de référence commun. référence. Les ensembles de données de référence fournissent ce point commun. Ils sont généralement conçus pour représenter des défis spécifiques, tels que la détection de petits objets ou la gestion de mauvaises conditions d'éclairage. Les défis les plus populaires, tels que le concours de reconnaissance visuelle à grande échelle ImageNet Large Scale Visual Recognition Challenge (ILSVRC), s'appuient sur ces ensembles de données pour favoriser une concurrence saine. Cette normalisation garantit que les améliorations apportées à l 'architecture du modèle sont de véritables avancées plutôt que le résultat de tests sur des données plus faciles et non standardisées.

Distinguer le benchmark d'autres ensembles de données

Il est essentiel de différencier les ensembles de données de référence des divisions de données utilisées au cours du cycle de développement standard :

  • Données de formation: Il s'agit du matériel utilisé pour l'apprentissage du modèle. L'algorithme ajuste ses paramètres internes sur la base de ces données.
  • Données de validation: Sous-ensemble utilisé pendant la formation pour ajuster les hyperparamètres et éviter l'ajustement excessif. l 'ajustement excessif. Il s'agit d'une vérification préliminaire mais ne représente pas le score final.
  • Données d'essai: Un ensemble de données internes utilisé pour vérifier les performances avant la publication.
  • Ensemble de données de référence : Un ensemble de tests externes universellement acceptés. Bien qu'un benchmark agisse comme des données de test, il se distingue principalement par son rôle de norme publique pour le contrôle de la qualité, de test, sa principale distinction est son rôle de norme publique pour la comparaison de modèles.

Applications concrètes

Les ensembles de données de référence définissent le succès dans divers secteurs en établissant des normes rigoureuses de sécurité et de fiabilité. des normes rigoureuses de sécurité et de fiabilité.

Détection d'objets dans le domaine de la vision générale

L'exemple le plus marquant en matière de détection d'objets est le jeu de données COCO (Common Objects in Context). COCO (Common Objects in Context). Lorsqu'Ultralytics lance une nouvelle architecture comme YOLO11sa performance est rigoureusement comparée à celle de rigoureusement comparée à COCO pour vérifier les améliorations précision moyenne (mAP). Cela permet aux chercheurs de voir exactement comment YOLO11 permet aux chercheurs de voir exactement comment YOLO11 se compare aux itérations précédentes ou à d'autres modèles de pointe dans la détection d'objets quotidiens tels que les personnes, les vélos et les animaux. détection d'objets quotidiens tels que les personnes, les bicyclettes et les animaux.

Sécurité de la conduite autonome

Dans l'industrie automobile, la sécurité est primordiale. Les développeurs de véhicules autonomes utilisent des comme la KITTI Vision Benchmark Suite ou le Waymo Open Dataset. Waymo Open Dataset. Ces ensembles de données contiennent des enregistrements complexes et annotés d'environnements de conduite urbaine, y compris les piétons, les cyclistes et les véhicules à moteur. Ces ensembles de données contiennent des enregistrements complexes et annotés d'environnements de conduite urbains, y compris des piétons, des cyclistes et des panneaux de signalisation. En évaluant les systèmes de perception de perception par rapport à ces critères, les ingénieurs peuvent quantifier la robustesse de leur système dans des scénarios de circulation réels. robustesse de leur système dans des scénarios de circulation réels, s'assurer que l'IA réagit correctement aux dangers dynamiques.

Benchmarking avec Ultralytics

Ultralytics fournit des outils intégrés pour comparer facilement les modèles dans différents formats d'exportation, tels que ONNX ou TensorRT. Cela aide les utilisateurs à identifier le meilleur entre la latence et la précision de l'inférence pour leur matériel spécifique.

L'exemple suivant montre comment évaluer un modèle YOLO11 à l'aide de l'API Python . Ce processus évalue la vitesse et la précision du Ce processus évalue la vitesse et la précision du modèle sur un ensemble de données standard.

from ultralytics import YOLO

# Load the official YOLO11 nano model
model = YOLO("yolo11n.pt")

# Run benchmarks to evaluate performance across different formats
# This checks speed and accuracy on the COCO8 dataset
results = model.benchmark(data="coco8.yaml", imgsz=640, half=False)

Les défis de l'étalonnage des performances

Si les critères de référence sont essentiels, ils ne sont pas sans faille. Un phénomène connu sous le nom de "biais de l'ensemble des données" peut se produire si le référentiel ne reflète pas exactement la diversité du monde réel. ne reflète pas fidèlement la diversité du monde réel. Par exemple, un de référence pour la reconnaissance faciale qui ne comporte pas de par exemple, un référentiel de reconnaissance faciale sans représentation démographique diversifiée peut conduire à des modèles peu performants pour certains groupes. En outre, les chercheurs doivent éviter d'"enseigner pour le test", c'est-à-dire d'optimiser un modèle spécifiquement pour obtenir une au détriment de la généralisation à de nouvelles données inédites. Les mises à jour continues des ensembles de données, telles que celles du projet projet Objects365, permettent d'atténuer ces problèmes en augmentant la variété et l'échelle.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant