Scopri come i dataset di benchmark guidano l'innovazione dell'IA consentendo una valutazione equa dei modelli, la riproducibilità e il progresso nel machine learning.
Un dataset di benchmark è una raccolta di dati standardizzata e di alta qualità utilizzata per valutare le prestazioni dei modelli di apprendimento automatico (ML). di modelli di apprendimento automatico (ML) in modo equo e riproducibile. in modo equo e riproducibile. A differenza dei dati privati utilizzati per i test interni, un dataset di benchmark funge da "metro di misura" pubblico per l'intera comunità di ricerca. "bastone di misurazione" pubblico per l'intera comunità di ricerca. Testando diversi algoritmi sugli stessi identici input e utilizzando metriche di valutazione identiche, gli sviluppatori metriche di valutazione identiche, gli sviluppatori possono determinare in modo oggettivo quali modelli offrono una precisione, una velocità o un'efficienza superiori. Questi set di dati sono fondamentali per per seguire i progressi in campi come la visione artificiale (CV) e l'elaborazione del linguaggio e l'elaborazione del linguaggio naturale.
Nel panorama in rapida evoluzione dell'intelligenza intelligenza artificiale (IA), affermare che un che un nuovo modello sia "più veloce" o "più preciso" non ha senso senza un punto di riferimento condiviso. riferimento condiviso. I dataset di riferimento forniscono questo terreno comune. In genere sono curati per rappresentare sfide specifiche, come il rilevamento di piccoli oggetti o la gestione di condizioni di scarsa illuminazione. Sfide popolari, come la ImageNet Large Scale Visual Recognition Challenge (ILSVRC), si basano su questi set di dati per promuovere una sana competizione. La standardizzazione garantisce che i miglioramenti nell'architettura dei architettura dei modelli siano veri e propri progressi piuttosto che il risultato di test su dati più semplici e non standard.
È fondamentale differenziare i dataset di benchmark dalle suddivisioni dei dati utilizzate durante il ciclo di vita dello sviluppo standard:
I dataset di benchmark definiscono il successo in vari settori, stabilendo rigorosi standard di sicurezza e affidabilità. standard di sicurezza e affidabilità.
L'esempio più importante per il rilevamento degli oggetti è il set di dati COCO (Common Objects in Context). Quando Ultralytics rilascia una nuova architettura come YOLO11le sue prestazioni vengono rigorosamente di benchmark rispetto a COCO per verificare i miglioramenti della precisione media (mAP). Questo Questo permette ai ricercatori di vedere esattamente come YOLO11 si confronta con le iterazioni precedenti o con altri modelli all'avanguardia nel oggetti quotidiani come persone, biciclette e animali.
Nell'industria automobilistica la sicurezza è fondamentale. Gli sviluppatori di veicoli autonomi utilizzano benchmark come la KITTI Vision Benchmark Suite o il Waymo Open Dataset. Waymo Open Dataset. Questi set di dati contengono registrazioni complesse e annotate di ambienti di guida ambienti di guida urbani, compresi pedoni, ciclisti e segnali stradali. Valutando i sistemi di percezione con questi benchmark, gli ingegneri possono quantificare la robustezza del sistema robustezza del sistema in scenari di traffico reali, assicurandosi che l'intelligenza artificiale reagisca correttamente ai pericoli dinamici.
Ultralytics fornisce strumenti integrati per effettuare facilmente il benchmark dei modelli in diversi formati di esportazione, come ad esempio ONNX o TensorRT. Questo aiuta gli utenti a identificare il miglior tra latenza e accuratezza dell'inferenza per il proprio hardware per il loro hardware specifico.
L'esempio seguente mostra come eseguire il benchmark di un modello YOLO11 utilizzando l'API Python . Questo processo valuta la velocità e l'accuratezza del velocità e l'accuratezza del modello su un set di dati standard.
from ultralytics import YOLO
# Load the official YOLO11 nano model
model = YOLO("yolo11n.pt")
# Run benchmarks to evaluate performance across different formats
# This checks speed and accuracy on the COCO8 dataset
results = model.benchmark(data="coco8.yaml", imgsz=640, half=False)
Sebbene i benchmark siano essenziali, non sono impeccabili. Un fenomeno noto come "pregiudizio del set di dati" può verificarsi se il se il benchmark non riflette accuratamente la diversità del mondo reale. Per esempio, un riconoscimento facciale senza una rappresentazione demografica demografiche diverse può portare a modelli che hanno scarse prestazioni per alcuni gruppi. Inoltre, i ricercatori devono evitare di "insegnare al test", quando ottimizzano un modello specificamente per ottenere un punteggio elevato in un benchmark a a scapito della generalizzazione a nuovi dati non visti. Gli aggiornamenti continui dei set di dati, come quelli visti nel progetto Objects365, contribuiscono a mitigare questi problemi aumentando la varietà e la scala.