Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Apprentissage Zero-Shot

Découvrez l'apprentissage Zero-Shot : une approche d'IA de pointe permettant aux modèles de classer des données invisibles, révolutionnant ainsi la détection d'objets, le NLP, et plus encore.

L'apprentissage Zero-Shot (ZSL) est une capacité fascinante de l'apprentissage automatique (ML) où un modèle peut reconnaître et classer des objets de catégories qu'il n'a jamais vues pendant sa phase de données d'entraînement. Contrairement à l'apprentissage supervisé traditionnel, qui nécessite des exemples explicites pour chaque classe possible, le ZSL permet à un modèle de généraliser ses connaissances à de nouvelles classes invisibles. Ceci est réalisé en associant les classes observées et non observées par le biais de descriptions sémantiques de haut niveau, telles que des attributs ou des embeddings de texte. Cela permet à un modèle d'IA d'être plus flexible et évolutif, en particulier dans les scénarios du monde réel où la collecte de données étiquetées exhaustives est impraticable.

Comment ça marche ?

L'idée centrale de ZSL est de créer un espace d'embedding partagé où les caractéristiques visuelles des images et les informations sémantiques du texte peuvent être représentées. Pendant l'entraînement, le modèle apprend à mapper les images de classes vues à leurs vecteurs sémantiques correspondants (attributs ou embeddings de mots). Par exemple, le modèle apprend les caractéristiques visuelles d'un « cheval » et les relie à une description sémantique telle que « a quatre pattes », « est un mammifère » et « peut être monté ».

Lorsqu'on lui présente une image d'une classe inédite, comme un "zèbre", le modèle extrait ses caractéristiques visuelles. Simultanément, il utilise la description sémantique d'un "zèbre" - par exemple, "ressemble à un cheval", "a des rayures" - pour le localiser dans l'espace d'intégration. En trouvant la description sémantique la plus proche des caractéristiques visuelles extraites, le modèle peut correctement classer l'image comme un "zèbre", même sans une seule image d'entraînement de celui-ci. Ce processus repose souvent sur de puissants modèles multimodaux pré-entraînés comme CLIP d'OpenAI, qui excellent dans la connexion de la vision et du langage.

Apprentissage Zero-Shot Vs. Autres paradigmes

Il est important de distinguer l'apprentissage ZSL des techniques d'apprentissage connexes :

  • Apprentissage avec peu d'exemples (FSL) : Dans le FSL, le modèle est entraîné avec un très petit nombre d'exemples étiquetés (par exemple, 1 à 5) pour chaque nouvelle classe. Ceci est différent du ZSL, qui fonctionne avec zéro exemple de la classe cible.
  • Apprentissage en un seul essai (OSL) : Un sous-type de FSL où le modèle reçoit exactement un exemple d'une nouvelle classe. Il est plus limité en données que le FSL général, mais nécessite toujours au moins un échantillon, contrairement au ZSL.
  • Apprentissage par transfert : ZSL est une forme d'apprentissage par transfert, mais il est unique. Alors que l'apprentissage par transfert standard implique généralement d'affiner un modèle pré-entraîné sur un nouvel ensemble de données étiquetées (plus petit), ZSL transfère les connaissances à de nouvelles classes en utilisant uniquement des informations sémantiques auxiliaires, contournant ainsi le besoin d'exemples étiquetés de ces classes.

Applications concrètes

Le ZSL a de nombreuses applications pratiques, ce qui rend les systèmes de vision par ordinateur plus dynamiques et adaptables.

  1. Détection d'objets à vocabulaire ouvert : Les modèles tels que YOLO-World exploitent le ZSL pour détecter tout objet décrit par du texte. Un utilisateur peut fournir des invites textuelles telles que « personne avec une chemise bleue » ou « fuite de tuyau », et le modèle peut localiser ces objets dans une image ou un flux vidéo sans avoir été explicitement entraîné sur ces catégories spécifiques. Il s'agit d'une étape importante vers la création de systèmes de vision véritablement polyvalents.
  2. Identification autonome des espèces : Dans l'IA pour la conservation de la faune, l'apprentissage zéro-shot (ZSL) peut identifier des espèces rares ou nouvellement découvertes. Un modèle entraîné sur des animaux communs peut utiliser des attributs descriptifs (par exemple, "a un long cou", "est tacheté", "est un herbivore") provenant d'une base de connaissances comme Wikipédia pour identifier une girafe, même si aucune image de girafe ne figurait dans son ensemble d'entraînement initial.

Défis et orientations futures

Malgré son potentiel, la ZSL est confrontée à des défis tels que le problème de hubness (où certains points de l'espace sémantique deviennent les voisins les plus proches d'un trop grand nombre de points) et le décalage de domaine (où les relations entre les caractéristiques et les attributs diffèrent entre les classes vues et non vues). Pour résoudre ces problèmes, les chercheurs développent des techniques plus robustes comme l'apprentissage zéro-shot généralisé (GZSL), où le modèle doit reconnaître à la fois les classes vues et non vues pendant l'inférence. L'évolution des modèles de fondation et des plateformes comme Ultralytics HUB simplifiera davantage l'intégration et le déploiement de la ZSL, rendant les systèmes d'IA moins dépendants d'un étiquetage de données extensif et plus alignés sur le raisonnement humain.

Rejoignez la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant
Lien copié dans le presse-papiers