Glossaire

Apprentissage à partir de zéro

Découvrez l'apprentissage à partir de zéro (Zero-Shot Learning) : une approche d'IA de pointe permettant aux modèles de classer des données inédites, révolutionnant ainsi la détection d'objets, le NLP et bien plus encore.

L'apprentissage à partir de zéro (ZSL) est une capacité fascinante de l'apprentissage automatique (ML) qui permet à un modèle de reconnaître et de classer des objets dans des catégories qu'il n'a jamais vues au cours de sa phase d'apprentissage. Contrairement à l'apprentissage supervisé traditionnel, qui nécessite des exemples explicites pour chaque classe possible, le ZSL permet à un modèle de généraliser ses connaissances à de nouvelles classes non vues. Pour ce faire, les classes observées et non observées sont associées à des descriptions sémantiques de haut niveau, telles que des attributs ou des enchâssements de texte. Cela permet à un modèle d'IA d'être plus flexible et évolutif, en particulier dans les scénarios du monde réel où la collecte de données étiquetées exhaustives n'est pas pratique.

Comment cela fonctionne-t-il ?

L'idée centrale de ZSL est de créer un espace d'intégration partagé où les caractéristiques visuelles des images et les informations sémantiques du texte peuvent être représentées. Au cours de la formation, le modèle apprend à mettre en correspondance les images des classes vues avec les vecteurs sémantiques correspondants (attributs ou ancrages de mots). Par exemple, le modèle apprend les caractéristiques visuelles d'un "cheval" et les relie à une description sémantique telle que "a quatre pattes", "est un mammifère" et "peut être monté".

Lorsqu'on lui présente une image d'une classe inédite, comme un "zèbre", le modèle extrait ses caractéristiques visuelles. Simultanément, il utilise la description sémantique d'un "zèbre" - par exemple, "ressemble à un cheval", "a des rayures" - pour le localiser dans l'espace d'intégration. En trouvant la description sémantique la plus proche des caractéristiques visuelles extraites, le modèle peut classer correctement l'image en tant que "zèbre", même en l'absence d'une seule image d'entraînement d'un zèbre. Ce processus s'appuie souvent sur de puissants modèles multimodaux pré-entraînés tels que le modèle CLIP de l'OpenAI, qui excelle à relier la vision et le langage.

L'apprentissage à partir de zéro contre d'autres paradigmes Autres paradigmes

Il est important de distinguer le ZSL des techniques d'apprentissage apparentées :

  • Few-Shot Learning (FSL): En FLS, le modèle est formé avec un très petit nombre d'exemples étiquetés (par exemple, 1 à 5) pour chaque nouvelle classe. Cette méthode diffère de la méthode ZSL, qui fonctionne avec zéro exemple de la classe cible.
  • Apprentissage à la volée (One-Shot Learning, OSL): Un sous-type de FLS dans lequel le modèle reçoit exactement un exemple d'une nouvelle classe. Il est plus limité en termes de données que le FLS général, mais nécessite toujours au moins un échantillon, contrairement au ZSL.
  • Apprentissage par transfert: ZSL est une forme d'apprentissage par transfert, mais elle est unique. Alors que l'apprentissage par transfert standard consiste généralement à affiner un modèle pré-entraîné sur un nouvel ensemble de données étiquetées (plus petit), ZSL transfère les connaissances à de nouvelles classes en utilisant uniquement des informations sémantiques auxiliaires, sans avoir besoin d'exemples étiquetés de ces classes.

Applications dans le monde réel

Le ZSL a de nombreuses applications pratiques, rendant les systèmes de vision par ordinateur plus dynamiques et adaptables.

  1. Détection d'objets à vocabulaire ouvert: Les modèles tels que YOLO-World s'appuient sur ZSL pour détecter tout objet décrit par un texte. Un utilisateur peut fournir des textes tels que "personne avec une chemise bleue" ou "tuyau qui fuit", et le modèle peut localiser ces objets dans une image ou un flux vidéo sans avoir été explicitement formé à ces catégories spécifiques. Il s'agit d'une étape importante vers la création de systèmes de vision véritablement polyvalents.
  2. Identification autonome des espèces: Dans le cadre de l'IA pour la conservation de la faune, ZSL peut identifier des espèces rares ou nouvellement découvertes. Un modèle formé sur des animaux communs peut utiliser des attributs descriptifs (par exemple, "a un long cou", "est tacheté", "est un herbivore") provenant d'une base de connaissances comme Wikipédia pour identifier une girafe, même si aucune image de girafe ne figurait dans son ensemble d'apprentissage initial.

Défis et orientations futures

Malgré son potentiel, le ZSL est confronté à des défis tels que le problème du hubness (où certains points de l'espace sémantique deviennent les voisins les plus proches d'un trop grand nombre de points) et le changement de domaine (où les relations entre les caractéristiques et les attributs diffèrent entre les classes vues et non vues). Pour résoudre ces problèmes, les chercheurs développent des techniques plus robustes comme l'apprentissage généralisé à partir de zéro (GZSL), où le modèle doit reconnaître à la fois les classes vues et non vues pendant l'inférence. L'évolution des modèles de base et des plateformes comme Ultralytics HUB simplifiera encore l'intégration et le déploiement de l'apprentissage généralisé à partir de zéro, ce qui rendra les systèmes d'IA moins dépendants d'un étiquetage poussé des données et plus proches d'un raisonnement de type humain.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers