Découvrez l'apprentissage Zero-Shot : une approche d'IA de pointe permettant aux modèles de classer des données invisibles, révolutionnant ainsi la détection d'objets, le NLP, et plus encore.
L'apprentissage Zero-Shot (ZSL) est une capacité fascinante de l'apprentissage automatique (ML) où un modèle peut reconnaître et classer des objets de catégories qu'il n'a jamais vues pendant sa phase de données d'entraînement. Contrairement à l'apprentissage supervisé traditionnel, qui nécessite des exemples explicites pour chaque classe possible, le ZSL permet à un modèle de généraliser ses connaissances à de nouvelles classes invisibles. Ceci est réalisé en associant les classes observées et non observées par le biais de descriptions sémantiques de haut niveau, telles que des attributs ou des embeddings de texte. Cela permet à un modèle d'IA d'être plus flexible et évolutif, en particulier dans les scénarios du monde réel où la collecte de données étiquetées exhaustives est impraticable.
L'idée centrale de ZSL est de créer un espace d'embedding partagé où les caractéristiques visuelles des images et les informations sémantiques du texte peuvent être représentées. Pendant l'entraînement, le modèle apprend à mapper les images de classes vues à leurs vecteurs sémantiques correspondants (attributs ou embeddings de mots). Par exemple, le modèle apprend les caractéristiques visuelles d'un « cheval » et les relie à une description sémantique telle que « a quatre pattes », « est un mammifère » et « peut être monté ».
Lorsqu'on lui présente une image d'une classe inédite, comme un "zèbre", le modèle extrait ses caractéristiques visuelles. Simultanément, il utilise la description sémantique d'un "zèbre" - par exemple, "ressemble à un cheval", "a des rayures" - pour le localiser dans l'espace d'intégration. En trouvant la description sémantique la plus proche des caractéristiques visuelles extraites, le modèle peut correctement classer l'image comme un "zèbre", même sans une seule image d'entraînement de celui-ci. Ce processus repose souvent sur de puissants modèles multimodaux pré-entraînés comme CLIP d'OpenAI, qui excellent dans la connexion de la vision et du langage.
Il est important de distinguer l'apprentissage ZSL des techniques d'apprentissage connexes :
Le ZSL a de nombreuses applications pratiques, ce qui rend les systèmes de vision par ordinateur plus dynamiques et adaptables.
Malgré son potentiel, la ZSL est confrontée à des défis tels que le problème de hubness (où certains points de l'espace sémantique deviennent les voisins les plus proches d'un trop grand nombre de points) et le décalage de domaine (où les relations entre les caractéristiques et les attributs diffèrent entre les classes vues et non vues). Pour résoudre ces problèmes, les chercheurs développent des techniques plus robustes comme l'apprentissage zéro-shot généralisé (GZSL), où le modèle doit reconnaître à la fois les classes vues et non vues pendant l'inférence. L'évolution des modèles de fondation et des plateformes comme Ultralytics HUB simplifiera davantage l'intégration et le déploiement de la ZSL, rendant les systèmes d'IA moins dépendants d'un étiquetage de données extensif et plus alignés sur le raisonnement humain.