Découvrez l'apprentissage à partir de zéro (Zero-Shot Learning) : une approche d'IA de pointe permettant aux modèles de classer des données inédites, révolutionnant ainsi la détection d'objets, le NLP et bien plus encore.
L'apprentissage à partir de zéro (ZSL) est une capacité fascinante de l'apprentissage automatique (ML) qui permet à un modèle de reconnaître et de classer des objets dans des catégories qu'il n'a jamais vues au cours de sa phase d'apprentissage. Contrairement à l'apprentissage supervisé traditionnel, qui nécessite des exemples explicites pour chaque classe possible, le ZSL permet à un modèle de généraliser ses connaissances à de nouvelles classes non vues. Pour ce faire, les classes observées et non observées sont associées à des descriptions sémantiques de haut niveau, telles que des attributs ou des enchâssements de texte. Cela permet à un modèle d'IA d'être plus flexible et évolutif, en particulier dans les scénarios du monde réel où la collecte de données étiquetées exhaustives n'est pas pratique.
Il est important de distinguer le ZSL des techniques d'apprentissage apparentées :
Le ZSL a de nombreuses applications pratiques, rendant les systèmes de vision par ordinateur plus dynamiques et adaptables.
Malgré son potentiel, le ZSL est confronté à des défis tels que le problème du hubness (où certains points de l'espace sémantique deviennent les voisins les plus proches d'un trop grand nombre de points) et le changement de domaine (où les relations entre les caractéristiques et les attributs diffèrent entre les classes vues et non vues). Pour résoudre ces problèmes, les chercheurs développent des techniques plus robustes comme l'apprentissage généralisé à partir de zéro (GZSL), où le modèle doit reconnaître à la fois les classes vues et non vues pendant l'inférence. L'évolution des modèles de base et des plateformes comme Ultralytics HUB simplifiera encore l'intégration et le déploiement de l'apprentissage généralisé à partir de zéro, ce qui rendra les systèmes d'IA moins dépendants d'un étiquetage poussé des données et plus proches d'un raisonnement de type humain.
Comment cela fonctionne-t-il ?
L'idée centrale de ZSL est de créer un espace d'intégration partagé où les caractéristiques visuelles des images et les informations sémantiques du texte peuvent être représentées. Au cours de la formation, le modèle apprend à mettre en correspondance les images des classes vues avec les vecteurs sémantiques correspondants (attributs ou ancrages de mots). Par exemple, le modèle apprend les caractéristiques visuelles d'un "cheval" et les relie à une description sémantique telle que "a quatre pattes", "est un mammifère" et "peut être monté".
Lorsqu'on lui présente une image d'une classe inédite, comme un "zèbre", le modèle extrait ses caractéristiques visuelles. Simultanément, il utilise la description sémantique d'un "zèbre" - par exemple, "ressemble à un cheval", "a des rayures" - pour le localiser dans l'espace d'intégration. En trouvant la description sémantique la plus proche des caractéristiques visuelles extraites, le modèle peut classer correctement l'image en tant que "zèbre", même en l'absence d'une seule image d'entraînement d'un zèbre. Ce processus s'appuie souvent sur de puissants modèles multimodaux pré-entraînés tels que le modèle CLIP de l'OpenAI, qui excelle à relier la vision et le langage.