Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

IA Data-Centric

Scopri l'AI Data-Centric, l'approccio per migliorare la qualità del set di dati per aumentare le prestazioni del modello. Scopri perché dati migliori, e non solo un modello migliore, sono fondamentali per un'IA solida.

L'intelligenza artificiale centrata sui dati è un approccio strategico allo sviluppo di sistemi di sistemi di intelligenza artificiale (AI) che si concentra principalmente sul miglioramento della qualità dei dati di addestramento piuttosto che sull'iterazione dell'architettura del modello. Nei flussi di lavoro tradizionali, gli sviluppatori spesso trattano il set di dati come un input fisso e spendono sforzi significativi per modificare gli iperparametri o progettare modelli complessi. iperparametri o a progettare complesse strutture di reti neurali (NN) complesse. Al contrario, una metodologia metodologia incentrata sui dati tratta il codice del modello, ad esempio l'architettura di Ultralytics YOLO11-come una base relativamente statica, indirizzando gli sforzi ingegneristici verso la pulizia sistematica dei dati, la coerenza dell'etichettatura e l'aumento delle prestazioni. prestazioni.

La filosofia di base: Qualità più che quantità

L'efficacia di qualsiasi di apprendimento automatico (ML) è fondamentalmente limitato dal principio "garbage in, garbage out". Anche gli algoritmi più avanzati non possono imparare modelli efficaci da input rumorosi o etichettati in modo errato. L'IA incentrata sui dati sostiene che per molte applicazioni pratiche i dati di applicazioni pratiche, i dati di addestramento sono la variabile più variabile più significativa per il successo. Questo approccio sottolinea che un set di dati più piccolo e di alta qualità spesso produce risultati migliori di uno risultati migliori di uno enorme e rumoroso.

I sostenitori di questa filosofia, come Andrew Ng, sostengono che l'attenzione della comunità dell'IA si è della comunità dell'IA si sono concentrati in modo sproporzionato sull'innovazione centrata sul modello. Per costruire sistemi robusti, per costruire sistemi robusti, gli ingegneri devono impegnarsi in processi di apprendimento attivo in cui identificano iterativamente le modalità di guasto e le correggono affinando il set di dati. Questo comporta una precisa dati, eliminando i duplicati e gestendo i casi limite che il modello trova difficile casi limite che il modello trova difficili da classify.

Tecniche chiave e implementazione

L'implementazione di una strategia incentrata sui dati comporta diversi processi tecnici volti a progettare il set di dati per ottenere la massima densità e coerenza delle informazioni. densità e coerenza delle informazioni.

  • Pulizia sistematica dei dati: Si tratta di individuare e correggere gli errori nelle annotazioni, come ad esempio identificare i riquadri di delimitazione che non un oggetto o correggere gli errori di mancata corrispondenza delle classi.
  • Aumento dei dati: Gli sviluppatori utilizzano tecniche di incremento dei dati per espandere artificialmente artificialmente la diversità del set di dati. Applicando trasformazioni come la rotazione, il ridimensionamento e l'aggiustamento del colore, il modello modello impara a generalizzare meglio ad ambienti sconosciuti.
  • Generazione di dati sintetici: Quando i dati del mondo reale sono scarsi, i team possono generare dati sintetici per colmare le lacune del set di dati, assicurarsi che le classi rare siano adeguatamente rappresentate.
  • Analisi degli errori: Invece di guardare solo alle metriche aggregate come la precisione, gli ingegneri analizzano i casi specifici in cui il modello modello fallisce e raccolgono dati mirati per risolvere questi specifici punti deboli.

Il seguente codice Python dimostra come applicare le tecniche di incremento centrate sui dati durante l'addestramento, utilizzando il metodo ultralytics pacchetto.

from ultralytics import YOLO

# Load the YOLO11 model
model = YOLO("yolo11n.pt")

# Train with specific data augmentations to improve generalization
# 'degrees' adds rotation, 'mixup' blends images, and 'copy_paste' adds object instances
results = model.train(
    data="coco8.yaml",
    epochs=10,
    degrees=15.0,  # Random rotation up to +/- 15 degrees
    mixup=0.1,  # Apply MixUp augmentation with 10% probability
    copy_paste=0.1,  # Use Copy-Paste augmentation
)

Applicazioni nel mondo reale

L'adozione di un approccio incentrato sui dati è fondamentale nei settori in cui la precisione della di visione computerizzata (CV) la precisione è precisione non è negoziabile.

  1. Agricoltura di precisione: In AI in agricoltura, la distinzione tra una coltura un raccolto sano e uno con una malattia in fase iniziale spesso si basa su sottili indicazioni visive. Un team incentrato sui dati si concentrerebbe sulla curare un set di dati di visione artificiale di alta qualità di alta qualità che includa esempi di malattie in diverse condizioni di illuminazione e fasi di crescita, assicurando che il modello non impari ad associare che il modello non impari ad associare caratteristiche di sfondo irrilevanti alla classe di malattia.
  2. Ispezione industriale: Per l'IA nella produzione AI nella produzione, i difetti potrebbero verificarsi solo una volta ogni diecimila unità. Un modello di addestramento standard potrebbe ignorare questi eventi rari. Impiegando strategie di strategie di rilevamento delle anomalie e di manualmente o sintetizzando un maggior numero di immagini di questi difetti specifici, gli ingegneri assicurano che il sistema raggiunga gli alti tassi di richiamo richiesti dagli standard di controllo qualità. di richiamo richiesti dagli standard di controllo della qualità di controllo della qualità definiti da organizzazioni come l'ISO.

Distinguere i concetti correlati

Per comprendere l'IA centrata sui dati è necessario distinguerla da termini simili nell'ecosistema dell'apprendimento automatico.

  • IA centrata sul modello: si tratta dell'approccio inverso, in cui il set di dati viene mantenuto costante e si cercano miglioramenti attraverso il miglioramenti sono ricercati attraverso regolazione degli iperparametri o di modifiche architettoniche modifiche architettoniche. Sebbene sia necessario per spingere i limiti dello stato dell'arte nei documenti di ricerca trovati su IEEE Xplore, spesso in produzione i rendimenti diminuiscono rispetto alla pulizia dei dati. produzione rispetto alla pulizia dei dati.
  • Big Data: I Big Data si riferiscono principalmente il volume, la velocità e la varietà delle informazioni. L'intelligenza artificiale centrata sui dati non richiede necessariamente dati "grandi"; piuttosto, richiede dati "intelligenti". Un set di dati piccolo e perfettamente etichettato è spesso superiore a uno enorme e rumoroso. rumoroso.
  • Analisi esplorativa dei dati (EDA): La visualizzazione dei dati e l'EDA sono fasi all'interno del flusso di lavoro incentrato sui dati. L'EDA aiuta a identificare le incongruenze, ma l'intelligenza artificiale centrata sui dati comprende l'intero ciclo di vita dell'ingegneria per risolvere questi problemi e migliorare il motore di inferenza. motore di inferenza.
  • MLOps: Operazioni di apprendimento automatico (MLOps) fornisce l'infrastruttura e le pipeline per gestire il ciclo di vita della produzione di IA. L'intelligenza artificiale centrata sui dati è la metodologia applicata nelle pipeline MLOps per garantire che i dati che vi transitano creino modelli affidabili.

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora