Sintonizzati su YOLO Vision 2025!
25 settembre 2025
10:00 — 18:00 BST
Evento ibrido
Yolo Vision 2024
Glossario

Apprendimento Zero-Shot

Scopri lo Zero-Shot Learning: un approccio di AI all'avanguardia che consente ai modelli di classificare dati mai visti prima, rivoluzionando il rilevamento di oggetti, l'NLP e altro ancora.

Lo Zero-Shot Learning (ZSL) è un'affascinante capacità nel machine learning (ML) in cui un modello può riconoscere e classificare oggetti di categorie che non ha mai visto durante la sua fase di training data. A differenza del tradizionale supervised learning, che richiede esempi espliciti per ogni possibile classe, lo ZSL consente a un modello di generalizzare la sua conoscenza a classi nuove e mai viste. Ciò si ottiene associando classi osservate e non osservate attraverso descrizioni semantiche di alto livello, come attributi o incorporamenti di testo. Questo permette a un modello di AI di essere più flessibile e scalabile, specialmente in scenari del mondo reale in cui la raccolta di dati etichettati esaustivi è impraticabile.

Come Funziona?

L'idea alla base di ZSL è quella di creare uno spazio di embedding condiviso in cui sia le caratteristiche visive delle immagini che le informazioni semantiche del testo possono essere rappresentate. Durante l'addestramento, il modello impara a mappare le immagini di classi viste ai loro corrispondenti vettori semantici (attributi o word embedding). Ad esempio, il modello apprende le caratteristiche visive di un "cavallo" e le collega a una descrizione semantica come "ha quattro zampe", "è un mammifero" e "può essere cavalcato".

Quando viene presentata un'immagine di una classe mai vista, come una "zebra", il modello ne estrae le caratteristiche visive. Contemporaneamente, utilizza la descrizione semantica di una "zebra" - ad esempio, "è simile a un cavallo", "ha strisce" - per localizzarla nello spazio di embedding. Trovando la descrizione semantica più vicina alle caratteristiche visive estratte, il modello può classificare correttamente l'immagine come una "zebra", anche senza una singola immagine di addestramento di una. Questo processo si basa spesso su potenti modelli multimodali pre-addestrati come CLIP di OpenAI, che eccellono nel collegare visione e linguaggio.

Zero-Shot Learning vs. altri paradigmi

È importante distinguere ZSL da tecniche di apprendimento correlate:

  • Few-Shot Learning (FSL): In FSL, il modello viene addestrato con un numero molto piccolo di esempi etichettati (ad esempio, da 1 a 5) per ogni nuova classe. Questo è diverso da ZSL, che opera con zero esempi della classe target.
  • One-Shot Learning (OSL): Un sottotipo di FSL in cui il modello riceve esattamente un esempio di una nuova classe. È più vincolato dai dati rispetto al FSL generale, ma richiede comunque almeno un campione, a differenza di ZSL.
  • Transfer Learning: ZSL è una forma di transfer learning, ma è unica. Mentre il transfer learning standard in genere comporta il fine-tuning di un modello pre-addestrato su un nuovo (più piccolo) set di dati etichettato, ZSL trasferisce la conoscenza a nuove classi utilizzando solo informazioni semantiche ausiliarie, bypassando la necessità di esempi etichettati di tali classi.

Applicazioni nel mondo reale

Lo ZSL ha numerose applicazioni pratiche, rendendo i sistemi di computer vision più dinamici e adattabili.

  1. Rilevamento di Oggetti a Vocabolario Aperto: Modelli come YOLO-World sfruttano ZSL per rilevare qualsiasi oggetto descritto dal testo. Un utente può fornire prompt di testo come "persona con una maglietta blu" o "tubo che perde", e il modello può localizzare questi oggetti in un'immagine o in un flusso video senza essere esplicitamente addestrato su quelle specifiche categorie. Questo è un passo significativo verso la creazione di sistemi di visione veramente generici.
  2. Identificazione autonoma delle specie: Nell'IA per la conservazione della fauna selvatica, ZSL può identificare specie rare o scoperte di recente. Un modello addestrato su animali comuni può utilizzare attributi descrittivi (ad esempio, "ha un collo lungo", "è maculato", "è un erbivoro") da una knowledge base come Wikipedia per identificare una giraffa, anche se nessuna immagine di giraffa era presente nel suo set di addestramento originale.

Sfide e direzioni future

Nonostante il suo potenziale, lo ZSL affronta sfide come il problema dell'hubness (dove alcuni punti nello spazio semantico diventano i vicini più prossimi a troppi punti) e il domain shift (dove le relazioni tra caratteristiche e attributi differiscono tra classi viste e non viste). Per affrontare questi problemi, i ricercatori stanno sviluppando tecniche più robuste come il Generalized Zero-Shot Learning (GZSL), in cui il modello deve riconoscere sia le classi viste che quelle non viste durante l'inferenza. L'evoluzione dei modelli fondazionali e delle piattaforme come Ultralytics HUB semplificherà ulteriormente l'integrazione e la distribuzione dello ZSL, rendendo i sistemi di IA meno dipendenti da un'ampia etichettatura dei dati e più allineati al ragionamento umano.

Unisciti alla community di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora
Link copiato negli appunti