Découvrez l'apprentissage à partir de zéro (Zero-Shot Learning) : une approche d'IA de pointe permettant aux modèles de classer des données inédites, révolutionnant ainsi la détection d'objets, le NLP et bien plus encore.
L'apprentissage à partir de zéro (Zero-Shot Learning, ZSL) est un domaine fascinant de l'apprentissage automatique (Machine Learning, ML) dans lequel un modèle est entraîné à reconnaître des objets ou des concepts qu'il n'a jamais explicitement vus au cours de la formation. Contrairement aux méthodes traditionnelles d'apprentissage supervisé qui nécessitent de nombreux exemples étiquetés pour chaque catégorie possible, le ZSL permet aux modèles de faire des prédictions sur des classes non vues en exploitant des informations auxiliaires qui décrivent ces nouvelles classes. Cette capacité est cruciale pour construire des systèmes d'intelligence artificielle (IA) plus adaptables et évolutifs, en particulier dans les domaines où l'obtention de données étiquetées pour chaque catégorie imaginable est peu pratique, voire impossible.
Il est important de distinguer le ZSL des paradigmes d'apprentissage apparentés :
ZSL dispose d'un potentiel important dans différents domaines :
Malgré ses promesses, le ZSL est confronté à des défis tels que le problème du hubness (où certains points de l'espace sémantique deviennent les voisins les plus proches de nombreux points) et le changement de domaine (où la relation entre les caractéristiques et les attributs diffère entre les classes vues et les classes non vues). La recherche continue d'explorer des encastrements sémantiques plus robustes, de meilleures fonctions de mise en correspondance et des techniques telles que l'apprentissage généralisé à partir de zéro (Generalized Zero-Shot Learning - GZSL), qui vise à reconnaître les classes vues et non vues pendant l'inférence. Le développement de plateformes comme Ultralytics HUB pourrait faciliter l'intégration et le déploiement des capacités ZSL dans des applications pratiques d'IA visuelle. D'autres avancées pourraient s'inspirer de modèles multimodaux qui lient intrinsèquement la vision et le langage.
Comment fonctionne l'apprentissage à partir de zéro
L'idée centrale de ZSL est de combler le fossé entre les classes vues et non vues à l'aide d'un espace sémantique partagé. Cet espace repose souvent sur des descriptions de haut niveau, des attributs ou des enchâssements dérivés de textes ou de bases de connaissances. Au cours de la formation, le modèle apprend à établir une correspondance entre les données d'entrée (comme des images ou du texte) et cet espace sémantique, en utilisant uniquement des exemples des classes "vues". Par exemple, un modèle peut apprendre à associer des images de chevaux et de tigres (classes vues) à leurs attributs correspondants (par exemple, "a des sabots", "a des rayures", "est un mammifère").
Lorsqu'on lui présente une instance d'une classe inédite (par exemple, un zèbre), le modèle extrait ses caractéristiques et les inscrit dans l'espace sémantique appris. Il compare ensuite ce mappage aux descriptions sémantiques des classes non vues (par exemple, les attributs "a des rayures", "a des sabots", "est un mammifère" décrivant un zèbre). La classe dont la description sémantique est la plus proche dans cet espace est choisie comme prédiction. Ce processus fait souvent appel à des techniques d'apprentissage profond (DL), utilisant des architectures telles que les réseaux neuronaux convolutifs (CNN) pour l'extraction des caractéristiques et les fonctions de mappage pour relier les caractéristiques visuelles aux attributs sémantiques, en s'appuyant parfois sur les concepts des transformateurs de vision (ViT) ou sur des modèles tels que CLIP.