Découvrez comment les ensembles de données de référence stimulent l'innovation en matière d'IA en permettant une évaluation équitable des modèles, la reproductibilité et les progrès de l'apprentissage automatique.
Un ensemble de données de référence est une collection de données normalisées et de haute qualité utilisée pour évaluer les performances des modèles d'apprentissage automatique (ML) dans le cadre d'un projet de recherche. performance des modèles d'apprentissage machine (ML) de manière équitable et reproductible. Contrairement aux données privées utilisées pour des tests internes, un ensemble de données de référence sert de "mesure" publique pour l'ensemble de la communauté des chercheurs. "de mesure" pour l'ensemble de la communauté des chercheurs. En testant différents algorithmes sur les mêmes et en utilisant des mesures d'évaluation d 'évaluation identiques, les développeurs peuvent déterminer objectivement quels modèles offrent une précision, une vitesse ou une efficacité supérieures. Ces ensembles de données sont essentiels pour suivre les progrès dans des domaines tels que la vision artificielle (CV) et le traitement du naturel.
Dans le paysage en évolution rapide de l'intelligence l'intelligence artificielle (IA), affirmer qu'un qu'un nouveau modèle est "plus rapide" ou "plus précis" n'a pas de sens sans un point de référence commun. référence. Les ensembles de données de référence fournissent ce point commun. Ils sont généralement conçus pour représenter des défis spécifiques, tels que la détection de petits objets ou la gestion de mauvaises conditions d'éclairage. Les défis les plus populaires, tels que le concours de reconnaissance visuelle à grande échelle ImageNet Large Scale Visual Recognition Challenge (ILSVRC), s'appuient sur ces ensembles de données pour favoriser une concurrence saine. Cette normalisation garantit que les améliorations apportées à l 'architecture du modèle sont de véritables avancées plutôt que le résultat de tests sur des données plus faciles et non standardisées.
Il est essentiel de différencier les ensembles de données de référence des divisions de données utilisées au cours du cycle de développement standard :
Les ensembles de données de référence définissent le succès dans divers secteurs en établissant des normes rigoureuses de sécurité et de fiabilité. des normes rigoureuses de sécurité et de fiabilité.
L'exemple le plus marquant en matière de détection d'objets est le jeu de données COCO (Common Objects in Context). COCO (Common Objects in Context). Lorsqu'Ultralytics lance une nouvelle architecture comme YOLO11sa performance est rigoureusement comparée à celle de rigoureusement comparée à COCO pour vérifier les améliorations précision moyenne (mAP). Cela permet aux chercheurs de voir exactement comment YOLO11 permet aux chercheurs de voir exactement comment YOLO11 se compare aux itérations précédentes ou à d'autres modèles de pointe dans la détection d'objets quotidiens tels que les personnes, les vélos et les animaux. détection d'objets quotidiens tels que les personnes, les bicyclettes et les animaux.
Dans l'industrie automobile, la sécurité est primordiale. Les développeurs de véhicules autonomes utilisent des comme la KITTI Vision Benchmark Suite ou le Waymo Open Dataset. Waymo Open Dataset. Ces ensembles de données contiennent des enregistrements complexes et annotés d'environnements de conduite urbaine, y compris les piétons, les cyclistes et les véhicules à moteur. Ces ensembles de données contiennent des enregistrements complexes et annotés d'environnements de conduite urbains, y compris des piétons, des cyclistes et des panneaux de signalisation. En évaluant les systèmes de perception de perception par rapport à ces critères, les ingénieurs peuvent quantifier la robustesse de leur système dans des scénarios de circulation réels. robustesse de leur système dans des scénarios de circulation réels, s'assurer que l'IA réagit correctement aux dangers dynamiques.
Ultralytics fournit des outils intégrés pour comparer facilement les modèles dans différents formats d'exportation, tels que ONNX ou TensorRT. Cela aide les utilisateurs à identifier le meilleur entre la latence et la précision de l'inférence pour leur matériel spécifique.
L'exemple suivant montre comment évaluer un modèle YOLO11 à l'aide de l'API Python . Ce processus évalue la vitesse et la précision du Ce processus évalue la vitesse et la précision du modèle sur un ensemble de données standard.
from ultralytics import YOLO
# Load the official YOLO11 nano model
model = YOLO("yolo11n.pt")
# Run benchmarks to evaluate performance across different formats
# This checks speed and accuracy on the COCO8 dataset
results = model.benchmark(data="coco8.yaml", imgsz=640, half=False)
Si les critères de référence sont essentiels, ils ne sont pas sans faille. Un phénomène connu sous le nom de "biais de l'ensemble des données" peut se produire si le référentiel ne reflète pas exactement la diversité du monde réel. ne reflète pas fidèlement la diversité du monde réel. Par exemple, un de référence pour la reconnaissance faciale qui ne comporte pas de par exemple, un référentiel de reconnaissance faciale sans représentation démographique diversifiée peut conduire à des modèles peu performants pour certains groupes. En outre, les chercheurs doivent éviter d'"enseigner pour le test", c'est-à-dire d'optimiser un modèle spécifiquement pour obtenir une au détriment de la généralisation à de nouvelles données inédites. Les mises à jour continues des ensembles de données, telles que celles du projet projet Objects365, permettent d'atténuer ces problèmes en augmentant la variété et l'échelle.