Data Labeling
Impara i fondamenti dell'etichettatura dei dati per il machine learning. Scopri tipi chiave come il rilevamento di oggetti e come accelerare i flussi di lavoro usando Ultralytics YOLO26.
L'etichettatura dei dati è il processo fondamentale di identificazione dei dati grezzi, come immagini, fotogrammi video, testo o audio, e dell'aggiunta di tag informativi o metadati per fornire un contesto. Nel campo del machine learning (ML), gli algoritmi non possono comprendere intrinsecamente il mondo fisico; richiedono un "insegnante" che li guidi. Questa guida si presenta sotto forma di dataset etichettati utilizzati durante l'apprendimento supervisionato. Le etichette fungono da ground truth, rappresentando le risposte corrette che il modello cerca di prevedere. Che tu stia addestrando un semplice classificatore o un'architettura complessa come Ultralytics YOLO26, l'accuratezza, la coerenza e la qualità di queste etichette sono i principali determinanti del successo di un modello.
Link to this sectionEtichettatura dei dati vs. Annotazione dei dati#
Sebbene i termini siano spesso usati in modo intercambiabile nelle conversazioni informali, esiste una sottile distinzione che vale la pena notare. "Etichettatura dei dati" si riferisce generalmente all'atto ampio di assegnare una categoria o un tag a un elemento di dati (ad esempio, taggare un'email come "spam"). Al contrario, l'annotazione dei dati è spesso più specifica per la computer vision (CV) e comporta la delineazione precisa degli oggetti utilizzando bounding box, poligoni o keypoints. Tuttavia, all'interno della maggior parte dei flussi di lavoro ML operations (MLOps), entrambi i termini descrivono la creazione di dati di addestramento di alta qualità.
Link to this sectionTipi principali nella Computer Vision#
Il metodo di etichettatura cambia in base al compito che il modello deve eseguire. I tipi comuni includono:
- Classificazione delle immagini: Assegnare una singola etichetta a un'intera immagine, come identificare una condizione meteorologica come "nuvoloso" o "soleggiato".
- Object Detection: Disegnare bounding box 2D attorno a oggetti distinti per insegnare al modello cosa sia l'oggetto e dove si trovi.
- Segmentazione delle istanze: Creare maschere perfette a livello di pixel o poligoni attorno agli oggetti, il che è essenziale per determinare forme e confini precisi.
- Pose Estimation: Contrassegnare specifici keypoints su un soggetto, come le articolazioni dello scheletro, per analizzare il movimento o la postura.
Link to this sectionApplicazioni nel mondo reale#
L'utilità dell'etichettatura dei dati si estende praticamente a ogni settore che impiega l'IA.
-
Veicoli autonomi: Le auto a guida autonoma si basano su enormi dataset in cui ogni veicolo, pedone, segnale stradale e segnaletica orizzontale è meticolosamente etichettato. Questi dati etichettati consentono al sistema di percezione di navigare in ambienti complessi in modo sicuro. Le aziende di veicoli autonomi investono pesantemente nell'etichettatura a livello di pixel per garantire la conformità alla sicurezza.
-
Agricoltura di precisione: Nell'agricoltura moderna, l'IA in agricoltura viene utilizzata per rilevare malattie delle colture o monitorare le fasi di crescita. Gli agricoltori utilizzano modelli addestrati su immagini etichettate di foglie "sane" rispetto a quelle "malate" per automatizzare il trattamento, riducendo l'uso di prodotti chimici e aumentando la resa.
Link to this sectionIl flusso di lavoro di etichettatura#
La creazione di un dataset etichettato è spesso la parte più dispendiosa in termini di tempo di un progetto di IA. Il processo coinvolge solitamente un approccio "Human-in-the-Loop" (HITL), in cui gli annotatori umani verificano le etichette per garantire un'elevata precisione. I flussi di lavoro moderni sfruttano strumenti come la Ultralytics Platform, che semplifica la gestione del dataset e consente ai team di collaborare sulle annotazioni. Possono essere impiegate anche tecniche avanzate come l'active learning, in cui un modello pre-etichetta i dati e gli esseri umani correggono solo le previsioni a bassa confidenza, accelerando significativamente il processo.
Il seguente esempio mostra come utilizzare un modello YOLO26 pre-addestrato per generare automaticamente etichette (auto-labeling) per una nuova immagine, che può poi essere corretta dagli esseri umani:
from ultralytics import YOLO
# Load the YOLO26n model (nano version)
model = YOLO("yolo26n.pt")
# Run inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Save the detection results to a text file in standard YOLO format
# This file can now be used as a starting point for data labeling
results[0].save_txt("bus_labels.txt")





