Glossario

Apprendimento a colpo zero

Scoprite lo Zero-Shot Learning: un approccio AI all'avanguardia che consente ai modelli di classificare dati non visti, rivoluzionando il rilevamento di oggetti, l'NLP e molto altro.

Lo Zero-Shot Learning (ZSL) è un'affascinante capacità dell'apprendimento automatico (ML) in cui un modello può riconoscere e classificare oggetti appartenenti a categorie che non ha mai visto durante la fase di addestramento dei dati. A differenza del tradizionale apprendimento supervisionato, che richiede esempi espliciti per ogni possibile classe, lo ZSL consente a un modello di generalizzare la propria conoscenza a nuove classi non viste. Ciò si ottiene associando le classi osservate e non osservate attraverso descrizioni semantiche di alto livello, come attributi o incorporazioni di testo. Ciò consente a un modello di intelligenza artificiale di essere più flessibile e scalabile, soprattutto in scenari reali in cui la raccolta di dati etichettati esaustivi non è praticabile.

Come funziona?

L'idea alla base di ZSL è quella di creare uno spazio di incorporamento condiviso in cui possano essere rappresentate sia le caratteristiche visive delle immagini sia le informazioni semantiche del testo. Durante l'addestramento, il modello impara a mappare le immagini delle classi viste con i corrispondenti vettori semantici (attributi o embedding di parole). Ad esempio, il modello apprende le caratteristiche visive di un "cavallo" e le collega a una descrizione semantica come "ha quattro zampe", "è un mammifero" e "può essere cavalcato".

Quando viene presentata un'immagine di una classe non vista, come una "zebra", il modello ne estrae le caratteristiche visive. Contemporaneamente, utilizza la descrizione semantica di una "zebra" - ad esempio, "è simile a un cavallo", "ha le strisce" - per localizzarla nello spazio di incorporazione. Trovando la descrizione semantica più vicina alle caratteristiche visive estratte, il modello è in grado di classificare correttamente l'immagine come "zebra", anche senza una singola immagine di addestramento. Questo processo si basa spesso su potenti modelli multimodali pre-addestrati come CLIP di OpenAI, che eccellono nel collegare visione e linguaggio.

Apprendimento a colpo zero contro altri paradigmi. Altri paradigmi

È importante distinguere lo ZSL dalle tecniche di apprendimento affini:

  • Apprendimento a pochi colpi (FSL): In FSL, il modello viene addestrato con un numero molto ridotto di esempi etichettati (ad esempio, da 1 a 5) per ogni nuova classe. Questo è diverso da ZSL, che opera con zero esempi della classe target.
  • Apprendimento in un colpo solo (OSL): Un sottotipo di FSL in cui il modello riceve esattamente un esempio di una nuova classe. È più vincolato ai dati rispetto all'FSL generale, ma richiede comunque almeno un campione, a differenza dello ZSL.
  • Trasferimento di apprendimento: ZSL è una forma di apprendimento per trasferimento, ma è unica. Mentre l'apprendimento di trasferimento standard prevede la messa a punto di un modello pre-addestrato su un nuovo set di dati etichettati (più piccolo), ZSL trasferisce le conoscenze a nuove classi utilizzando solo informazioni semantiche ausiliarie, senza bisogno di esempi etichettati di tali classi.

Applicazioni del mondo reale

Lo ZSL ha numerose applicazioni pratiche, che rendono i sistemi di visione artificiale più dinamici e adattabili.

  1. Rilevamento di oggetti a vocabolario aperto: Modelli come YOLO-World sfruttano ZSL per rilevare qualsiasi oggetto descritto dal testo. L'utente può fornire indicazioni testuali come "persona con camicia blu" o "tubo che perde" e il modello è in grado di individuare questi oggetti in un'immagine o in un flusso video senza essere addestrato esplicitamente su queste categorie specifiche. Si tratta di un passo significativo verso la creazione di sistemi di visione veramente generici.
  2. Identificazione autonoma delle specie: Nell'ambito dell'intelligenza artificiale per la conservazione della fauna selvatica, ZSL può identificare specie rare o appena scoperte. Un modello addestrato su animali comuni può utilizzare attributi descrittivi (ad esempio, "ha un collo lungo", "è maculato", "è un erbivoro") da una base di conoscenza come Wikipedia per identificare una giraffa, anche se nessuna immagine di giraffa era presente nel suo set di addestramento originale.

Sfide e direzioni future

Nonostante il suo potenziale, ZSL deve affrontare sfide come il problema dell'hubness (in cui alcuni punti dello spazio semantico diventano vicini a troppi punti) e il domain shift (in cui le relazioni tra caratteristiche e attributi differiscono tra classi viste e non viste). Per affrontare questi problemi, i ricercatori stanno sviluppando tecniche più robuste come il Generalized Zero-Shot Learning (GZSL), in cui il modello deve riconoscere sia le classi viste che quelle non viste durante l'inferenza. L'evoluzione dei modelli di base e di piattaforme come Ultralytics HUB semplificherà ulteriormente l'integrazione e l'implementazione di ZSL, rendendo i sistemi di intelligenza artificiale meno dipendenti dall'etichettatura estesa dei dati e più allineati al ragionamento umano.

Unitevi alla comunità di Ultralytics

Entrate a far parte del futuro dell'IA. Connettetevi, collaborate e crescete con gli innovatori globali.

Iscriviti ora
Link copiato negli appunti