Scoprite lo Zero-Shot Learning: un approccio AI all'avanguardia che consente ai modelli di classify dati non visti, rivoluzionando il rilevamento di oggetti, l'NLP e molto altro.
L'apprendimento a zero colpi (ZSL) è un potente paradigma di apprendimento automatico (ML) che consente ai modelli di di riconoscere, classify o detect oggetti che non hanno mai incontrato durante la fase di addestramento. fase di addestramento dei dati. Nel tradizionale apprendimento supervisionato, un modello deve essere addestrato su migliaia di immagini etichettate per ogni categoria specifica che deve identificare. ZSL elimina questo vincolo informazioni ausiliarie - tipicamente descrizioni testuali, attributi o embeddings semantici - per colmare il divario tra immagini viste e non viste. semantiche percolmare il divario tra le classi viste e non viste. classi viste e non viste. Questa capacità consente ai sistemi di intelligenza artificiale (AI) di di intelligenza artificiale (AI) di essere molto più flessibili, scalabili e in grado di gestire ambienti dinamici in cui la raccolta di dati esaustivi per ogni possibile oggetto dati esaustivi per ogni possibile oggetto è impraticabile.
Il meccanismo centrale di ZSL consiste nel trasferire la conoscenza da concetti familiari a concetti non familiari utilizzando uno spazio semantico condiviso. spazio semantico condiviso. Invece di imparare a riconoscere un "gatto" solo memorizzando gli schemi di pixel, il modello impara la relazione tra le caratteristiche visive e gli attributi semantici (ad esempio, "peloso", "baffi", "quattro zampe"). "baffi", "quattro zampe") derivati dall'elaborazione del linguaggio dall'elaborazione del linguaggio naturale (NLP).
Questo processo si basa spesso su modelli multimodali che allineano le rappresentazioni di immagini e testo. rappresentazioni testuali. Ad esempio, ricerche fondamentali come CLIP di OpenAI dimostra come i modelli possano apprendere i concetti visivi dalla dalla supervisione del linguaggio naturale. Quando un modello ZSL incontra un oggetto non visto, come una specie rara di uccello, ne estrae le caratteristiche visive e le confronta con un dizionario di immagini. le caratteristiche visive e le confronta con un dizionario di vettori semantici. Se le caratteristiche visive si allineano con la descrizione descrizione semantica della nuova classe, il modello è in grado di classify correttamente, eseguendo di fatto una previsione "a colpo sicuro". predizione "a colpo sicuro".
Per comprendere appieno la ZSL, è utile distinguerla da strategie di apprendimento simili utilizzate in visione artificiale (CV):
L'apprendimento Zero-Shot sta guidando l'innovazione in diversi settori industriali, consentendo ai sistemi di generalizzarsi al di là della loro formazione iniziale. formazione iniziale.
Il modello YOLO di Ultralytics esemplifica l'apprendimento a colpo zero. Learning in azione. Consente agli utenti di definire classi personalizzate in modo dinamico in fase di esecuzione, senza dover riqualificare il modello. Questo si ottiene collegando il modello YOLO11 con un codificatore di testo basato su un codificatore di testo basato su CLIP.
Il seguente esempio Python dimostra come utilizzare YOLO per detect oggetti che non fanno parte di un set di dati COCO standard.
COCO standard, come ad esempio i colori specifici dei vestiti, utilizzando l'opzione ultralytics pacchetto.
from ultralytics import YOLOWorld
# Load a pre-trained YOLO-World model
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes for Zero-Shot detection using text prompts
# The model will now look for these specific descriptions
model.set_classes(["blue backpack", "red apple", "person wearing sunglasses"])
# Run inference on an image to detect the new zero-shot classes
results = model.predict("path/to/image.jpg")
# Show the results
results[0].show()
Sebbene ZSL offra un immenso potenziale, deve affrontare sfide come il problema del domain shift, in cui gli attributi semantici appresi durante l'addestramento non si adattano perfettamente all'aspetto visivo delle classi non viste. attributi semantici appresi durante l'addestramento non si adattano perfettamente all'aspetto visivo delle classi non viste. Inoltre, i modelli ZSL possono soffrire di bias, in quanto l'accuratezza della predizione è significativamente più alta per le classi viste rispetto a quelle non viste (cfr. classi viste rispetto a quelle non viste (Generalized Zero-Shot Learning).
Le ricerche condotte da organizzazioni come l 'AI Lab dell'Università di Stanford e la IEEE Computer Society continua ad affrontare questi limiti. Man mano che i modelli di fondazione diventano più robusti, ZSL ZSL diventerà una funzione standard negli strumenti di strumenti di visione computerizzata, riducendo la dipendenza da massicce di etichettatura dei dati e democratizzando l'accesso alle capacità di capacità avanzate di intelligenza artificiale.