Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Apprendimento Zero-Shot

Scoprite lo Zero-Shot Learning: un approccio AI all'avanguardia che consente ai modelli di classify dati non visti, rivoluzionando il rilevamento di oggetti, l'NLP e molto altro.

L'apprendimento a zero colpi (ZSL) è un potente paradigma di apprendimento automatico (ML) che consente ai modelli di di riconoscere, classify o detect oggetti che non hanno mai incontrato durante la fase di addestramento. fase di addestramento dei dati. Nel tradizionale apprendimento supervisionato, un modello deve essere addestrato su migliaia di immagini etichettate per ogni categoria specifica che deve identificare. ZSL elimina questo vincolo informazioni ausiliarie - tipicamente descrizioni testuali, attributi o embeddings semantici - per colmare il divario tra immagini viste e non viste. semantiche percolmare il divario tra le classi viste e non viste. classi viste e non viste. Questa capacità consente ai sistemi di intelligenza artificiale (AI) di di intelligenza artificiale (AI) di essere molto più flessibili, scalabili e in grado di gestire ambienti dinamici in cui la raccolta di dati esaustivi per ogni possibile oggetto dati esaustivi per ogni possibile oggetto è impraticabile.

Come funziona l'apprendimento a colpo zero

Il meccanismo centrale di ZSL consiste nel trasferire la conoscenza da concetti familiari a concetti non familiari utilizzando uno spazio semantico condiviso. spazio semantico condiviso. Invece di imparare a riconoscere un "gatto" solo memorizzando gli schemi di pixel, il modello impara la relazione tra le caratteristiche visive e gli attributi semantici (ad esempio, "peloso", "baffi", "quattro zampe"). "baffi", "quattro zampe") derivati dall'elaborazione del linguaggio dall'elaborazione del linguaggio naturale (NLP).

Questo processo si basa spesso su modelli multimodali che allineano le rappresentazioni di immagini e testo. rappresentazioni testuali. Ad esempio, ricerche fondamentali come CLIP di OpenAI dimostra come i modelli possano apprendere i concetti visivi dalla dalla supervisione del linguaggio naturale. Quando un modello ZSL incontra un oggetto non visto, come una specie rara di uccello, ne estrae le caratteristiche visive e le confronta con un dizionario di immagini. le caratteristiche visive e le confronta con un dizionario di vettori semantici. Se le caratteristiche visive si allineano con la descrizione descrizione semantica della nuova classe, il modello è in grado di classify correttamente, eseguendo di fatto una previsione "a colpo sicuro". predizione "a colpo sicuro".

Distinzione dai concetti correlati

Per comprendere appieno la ZSL, è utile distinguerla da strategie di apprendimento simili utilizzate in visione artificiale (CV):

  • Apprendimento a pochi colpi (FSL): Mentre lo ZSL non richiede esempi della classe target, l'FSL fornisce al modello ZSL non richiede esempi della classe target, FSL fornisce al modello un set di supporto molto piccolo (in genere da 1 a 5 esempi) per adattarsi. (in genere da 1 a 5 esempi) per adattarsi. ZSL è più impegnativo perché si basa interamente sull'inferenza semantica piuttosto che su esempi visivi. piuttosto che su esempi visivi.
  • Apprendimento one-shot: Un sottoinsieme di FSL in cui il modello apprende da un solo esempio etichettato. ZSL si differenzia fondamentalmente per il fatto che opera senza anche una sola immagine della nuova categoria.
  • Apprendimento per trasferimento: Questo termine ampio termine si riferisce al trasferimento di conoscenze da un compito a un altro. Lo ZSL è un tipo specifico di apprendimento di trasferimento che che utilizza gli attributi semantici per trasferire la conoscenza a classi non viste, senza la necessità di un tradizionale di messa a punto tradizionale su nuovi dati.

Applicazioni nel mondo reale

L'apprendimento Zero-Shot sta guidando l'innovazione in diversi settori industriali, consentendo ai sistemi di generalizzarsi al di là della loro formazione iniziale. formazione iniziale.

  1. Rilevamento di oggetti a vocabolario aperto: Architetture moderne come YOLO utilizzano ZSL per detect gli oggetti sulla base di testo definito dall'utente. Questo permette di di oggetti in scenari in cui la definizione di un un elenco fisso di classi è impossibile, come ad esempio la ricerca di elementi specifici in vasti archivi video. I ricercatori di Google Research e di altre istituzioni stanno attivamente migliorare queste capacità di vocabolario aperto.
  2. Diagnostica medica: In AI nella sanità, ottenere dati etichettati per malattie rare è difficile e costoso. I modelli ZSL possono essere addestrati sulla base di condizioni comuni e di descrizioni di sintomi rari sintomi rari da libri di testo di medicina (ad esempio, articoli di PubMed ), consentendo al sistema di individuare potenziali di segnalare potenziali anomalie rare nelle radiografie o nelle risonanze magnetiche senza bisogno di un enorme set di dati positivi. casi.
  3. Conservazione della fauna selvatica: Per AI in agricoltura ed ecologia, l'identificazione di specie a rischio che vengono fotografate raramente è fondamentale. ZSL consente ai conservazionisti di detect questi animali utilizzando descrizioni basate su attributi (ad esempio, modelli specifici di pelliccia o forme di corna) definiti in database biologici come l'Enciclopedia della Vita. Encyclopedia of Life.

Rilevamento di zero colpi con Ultralytics

Il modello YOLO di Ultralytics esemplifica l'apprendimento a colpo zero. Learning in azione. Consente agli utenti di definire classi personalizzate in modo dinamico in fase di esecuzione, senza dover riqualificare il modello. Questo si ottiene collegando il modello YOLO11 con un codificatore di testo basato su un codificatore di testo basato su CLIP.

Il seguente esempio Python dimostra come utilizzare YOLO per detect oggetti che non fanno parte di un set di dati COCO standard. COCO standard, come ad esempio i colori specifici dei vestiti, utilizzando l'opzione ultralytics pacchetto.

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes for Zero-Shot detection using text prompts
# The model will now look for these specific descriptions
model.set_classes(["blue backpack", "red apple", "person wearing sunglasses"])

# Run inference on an image to detect the new zero-shot classes
results = model.predict("path/to/image.jpg")

# Show the results
results[0].show()

Sfide e prospettive future

Sebbene ZSL offra un immenso potenziale, deve affrontare sfide come il problema del domain shift, in cui gli attributi semantici appresi durante l'addestramento non si adattano perfettamente all'aspetto visivo delle classi non viste. attributi semantici appresi durante l'addestramento non si adattano perfettamente all'aspetto visivo delle classi non viste. Inoltre, i modelli ZSL possono soffrire di bias, in quanto l'accuratezza della predizione è significativamente più alta per le classi viste rispetto a quelle non viste (cfr. classi viste rispetto a quelle non viste (Generalized Zero-Shot Learning).

Le ricerche condotte da organizzazioni come l 'AI Lab dell'Università di Stanford e la IEEE Computer Society continua ad affrontare questi limiti. Man mano che i modelli di fondazione diventano più robusti, ZSL ZSL diventerà una funzione standard negli strumenti di strumenti di visione computerizzata, riducendo la dipendenza da massicce di etichettatura dei dati e democratizzando l'accesso alle capacità di capacità avanzate di intelligenza artificiale.

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora