Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Dataset di Benchmark

Scopri come i dataset di benchmark guidano l'innovazione dell'IA consentendo una valutazione equa dei modelli, la riproducibilità e il progresso nel machine learning.

Un dataset di benchmark è una raccolta di dati standardizzata e di alta qualità utilizzata per valutare le prestazioni dei modelli di apprendimento automatico (ML). di modelli di apprendimento automatico (ML) in modo equo e riproducibile. in modo equo e riproducibile. A differenza dei dati privati utilizzati per i test interni, un dataset di benchmark funge da "metro di misura" pubblico per l'intera comunità di ricerca. "bastone di misurazione" pubblico per l'intera comunità di ricerca. Testando diversi algoritmi sugli stessi identici input e utilizzando metriche di valutazione identiche, gli sviluppatori metriche di valutazione identiche, gli sviluppatori possono determinare in modo oggettivo quali modelli offrono una precisione, una velocità o un'efficienza superiori. Questi set di dati sono fondamentali per per seguire i progressi in campi come la visione artificiale (CV) e l'elaborazione del linguaggio e l'elaborazione del linguaggio naturale.

L'importanza della standardizzazione

Nel panorama in rapida evoluzione dell'intelligenza intelligenza artificiale (IA), affermare che un che un nuovo modello sia "più veloce" o "più preciso" non ha senso senza un punto di riferimento condiviso. riferimento condiviso. I dataset di riferimento forniscono questo terreno comune. In genere sono curati per rappresentare sfide specifiche, come il rilevamento di piccoli oggetti o la gestione di condizioni di scarsa illuminazione. Sfide popolari, come la ImageNet Large Scale Visual Recognition Challenge (ILSVRC), si basano su questi set di dati per promuovere una sana competizione. La standardizzazione garantisce che i miglioramenti nell'architettura dei architettura dei modelli siano veri e propri progressi piuttosto che il risultato di test su dati più semplici e non standard.

Distinguere il benchmark da altri insiemi di dati

È fondamentale differenziare i dataset di benchmark dalle suddivisioni dei dati utilizzate durante il ciclo di vita dello sviluppo standard:

  • Dati di formazione: Si tratta del materiale utilizzato per l'apprendimento del modello. L'algoritmo regola i suoi parametri interni in base a questi dati.
  • Dati di convalida: Un sottoinsieme utilizzato durante l'addestramento per mettere a punto gli iperparametri e prevenire l'overfitting. overfitting. Funge da controllo preliminare, ma non rappresenta non rappresenta il punteggio finale.
  • Dati del test: Un set di dati interno utilizzato per verificare le prestazioni prima del rilascio.
  • Set di dati di riferimento: Un set di test esterno universalmente accettato. Mentre un benchmark funge da dati di prova, la sua principale distinzione è il suo ruolo di standard pubblico per il confronto dei modelli.

Applicazioni nel mondo reale

I dataset di benchmark definiscono il successo in vari settori, stabilendo rigorosi standard di sicurezza e affidabilità. standard di sicurezza e affidabilità.

Rilevamento di oggetti nella visione generale

L'esempio più importante per il rilevamento degli oggetti è il set di dati COCO (Common Objects in Context). Quando Ultralytics rilascia una nuova architettura come YOLO11le sue prestazioni vengono rigorosamente di benchmark rispetto a COCO per verificare i miglioramenti della precisione media (mAP). Questo Questo permette ai ricercatori di vedere esattamente come YOLO11 si confronta con le iterazioni precedenti o con altri modelli all'avanguardia nel oggetti quotidiani come persone, biciclette e animali.

Sicurezza della guida autonoma

Nell'industria automobilistica la sicurezza è fondamentale. Gli sviluppatori di veicoli autonomi utilizzano benchmark come la KITTI Vision Benchmark Suite o il Waymo Open Dataset. Waymo Open Dataset. Questi set di dati contengono registrazioni complesse e annotate di ambienti di guida ambienti di guida urbani, compresi pedoni, ciclisti e segnali stradali. Valutando i sistemi di percezione con questi benchmark, gli ingegneri possono quantificare la robustezza del sistema robustezza del sistema in scenari di traffico reali, assicurandosi che l'intelligenza artificiale reagisca correttamente ai pericoli dinamici.

Benchmarking con Ultralytics

Ultralytics fornisce strumenti integrati per effettuare facilmente il benchmark dei modelli in diversi formati di esportazione, come ad esempio ONNX o TensorRT. Questo aiuta gli utenti a identificare il miglior tra latenza e accuratezza dell'inferenza per il proprio hardware per il loro hardware specifico.

L'esempio seguente mostra come eseguire il benchmark di un modello YOLO11 utilizzando l'API Python . Questo processo valuta la velocità e l'accuratezza del velocità e l'accuratezza del modello su un set di dati standard.

from ultralytics import YOLO

# Load the official YOLO11 nano model
model = YOLO("yolo11n.pt")

# Run benchmarks to evaluate performance across different formats
# This checks speed and accuracy on the COCO8 dataset
results = model.benchmark(data="coco8.yaml", imgsz=640, half=False)

Le sfide del benchmarking

Sebbene i benchmark siano essenziali, non sono impeccabili. Un fenomeno noto come "pregiudizio del set di dati" può verificarsi se il se il benchmark non riflette accuratamente la diversità del mondo reale. Per esempio, un riconoscimento facciale senza una rappresentazione demografica demografiche diverse può portare a modelli che hanno scarse prestazioni per alcuni gruppi. Inoltre, i ricercatori devono evitare di "insegnare al test", quando ottimizzano un modello specificamente per ottenere un punteggio elevato in un benchmark a a scapito della generalizzazione a nuovi dati non visti. Gli aggiornamenti continui dei set di dati, come quelli visti nel progetto Objects365, contribuiscono a mitigare questi problemi aumentando la varietà e la scala.

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora