Découvre l'apprentissage Zero-Shot : une approche d'IA de pointe permettant aux modèles de classer des données inédites, révolutionnant ainsi la détection d'objets, le NLP, et bien d'autres choses encore.
L'apprentissage à partir de zéro (Zero-Shot Learning, ZSL) est un domaine fascinant de l'apprentissage automatique (Machine Learning, ML) dans lequel un modèle est entraîné à reconnaître des objets ou des concepts qu'il n'a jamais explicitement vus au cours de la formation. Contrairement aux méthodes traditionnelles d'apprentissage supervisé qui nécessitent de nombreux exemples étiquetés pour chaque catégorie possible, le ZSL permet aux modèles de faire des prédictions sur des classes non vues en exploitant des informations auxiliaires qui décrivent ces nouvelles classes. Cette capacité est cruciale pour construire des systèmes d'intelligence artificielle (IA) plus adaptables et évolutifs, en particulier dans les domaines où l'obtention de données étiquetées pour chaque catégorie imaginable est peu pratique ou impossible.
L'idée centrale de ZSL est de combler le fossé entre les classes vues et non vues à l'aide d'un espace sémantique partagé. Cet espace repose souvent sur des descriptions de haut niveau, des attributs ou des enchâssements dérivés de textes ou de bases de connaissances. Au cours de la formation, le modèle apprend à établir une correspondance entre les données d'entrée (comme des images ou du texte) et cet espace sémantique, en utilisant uniquement des exemples des classes "vues". Par exemple, un modèle peut apprendre à associer des images de chevaux et de tigres (classes vues) à leurs attributs correspondants (par exemple, "a des sabots", "a des rayures", "est un mammifère").
Lorsqu'on lui présente une instance d'une classe inédite (par exemple, un zèbre), le modèle extrait ses caractéristiques et les inscrit dans l'espace sémantique appris. Il compare ensuite ce mappage aux descriptions sémantiques des classes non vues (par exemple, les attributs "a des rayures", "a des sabots", "est un mammifère" décrivant un zèbre). La classe dont la description sémantique est la plus proche dans cet espace est choisie comme prédiction. Ce processus fait souvent appel à des techniques d'apprentissage profond (DL), utilisant des architectures telles que les réseaux neuronaux convolutifs (CNN) pour l'extraction des caractéristiques et les fonctions de mappage pour relier les caractéristiques visuelles aux attributs sémantiques, en s'appuyant parfois sur des concepts issus des transformateurs de vision (ViT) ou des modèles tels que CLIP.
Il est important de distinguer le ZSL des paradigmes d'apprentissage apparentés :
ZSL a un potentiel important dans différents domaines :
Malgré ses promesses, le ZSL est confronté à des défis tels que le problème du hubness (où certains points de l'espace sémantique deviennent les voisins les plus proches de nombreux points) et le changement de domaine (où la relation entre les caractéristiques et les attributs diffère entre les classes vues et non vues). La recherche continue d'explorer des encastrements sémantiques plus robustes, de meilleures fonctions de mise en correspondance et des techniques telles que l'apprentissage généralisé à partir de zéro (GZSL), qui vise à reconnaître les classes vues et non vues au cours de l'inférence. Le développement de plateformes comme Ultralytics HUB pourrait faciliter l'intégration et le déploiement des capacités ZSL dans des applications pratiques d'IA de vision. D'autres avancées pourraient s'inspirer de modèles multimodaux qui lient intrinsèquement la vision et le langage.