Glossaire

Apprentissage à partir de zéro

Découvrez l'apprentissage à partir de zéro (Zero-Shot Learning) : une approche d'IA de pointe permettant aux modèles de classer des données inédites, révolutionnant ainsi la détection d'objets, le NLP et bien plus encore.

L'apprentissage à partir de zéro (Zero-Shot Learning, ZSL) est un domaine fascinant de l'apprentissage automatique (Machine Learning, ML) dans lequel un modèle est entraîné à reconnaître des objets ou des concepts qu'il n'a jamais explicitement vus au cours de la formation. Contrairement aux méthodes traditionnelles d'apprentissage supervisé qui nécessitent de nombreux exemples étiquetés pour chaque catégorie possible, le ZSL permet aux modèles de faire des prédictions sur des classes non vues en exploitant des informations auxiliaires qui décrivent ces nouvelles classes. Cette capacité est cruciale pour construire des systèmes d'intelligence artificielle (IA) plus adaptables et évolutifs, en particulier dans les domaines où l'obtention de données étiquetées pour chaque catégorie imaginable est peu pratique, voire impossible.

Comment fonctionne l'apprentissage à partir de zéro

L'idée centrale de ZSL est de combler le fossé entre les classes vues et non vues à l'aide d'un espace sémantique partagé. Cet espace repose souvent sur des descriptions de haut niveau, des attributs ou des enchâssements dérivés de textes ou de bases de connaissances. Au cours de la formation, le modèle apprend à établir une correspondance entre les données d'entrée (comme des images ou du texte) et cet espace sémantique, en utilisant uniquement des exemples des classes "vues". Par exemple, un modèle peut apprendre à associer des images de chevaux et de tigres (classes vues) à leurs attributs correspondants (par exemple, "a des sabots", "a des rayures", "est un mammifère").

Lorsqu'on lui présente une instance d'une classe inédite (par exemple, un zèbre), le modèle extrait ses caractéristiques et les inscrit dans l'espace sémantique appris. Il compare ensuite ce mappage aux descriptions sémantiques des classes non vues (par exemple, les attributs "a des rayures", "a des sabots", "est un mammifère" décrivant un zèbre). La classe dont la description sémantique est la plus proche dans cet espace est choisie comme prédiction. Ce processus fait souvent appel à des techniques d'apprentissage profond (DL), utilisant des architectures telles que les réseaux neuronaux convolutifs (CNN) pour l'extraction des caractéristiques et les fonctions de mappage pour relier les caractéristiques visuelles aux attributs sémantiques, en s'appuyant parfois sur les concepts des transformateurs de vision (ViT) ou sur des modèles tels que CLIP.

Principales différences par rapport à des concepts similaires

Il est important de distinguer le ZSL des paradigmes d'apprentissage apparentés :

Applications dans le monde réel

ZSL dispose d'un potentiel important dans différents domaines :

  1. Vision par ordinateur (VA) - Reconnaissance d'objets à grain fin : Identification d'espèces rares d'animaux, de plantes ou de modèles de produits spécifiques dans des images où les données d'apprentissage sont rares. Par exemple, un système formé aux oiseaux communs pourrait identifier une espèce rare sur la base d'une description textuelle de son plumage, de la forme de son bec et de son habitat, même en l'absence d'exemples visuels préalables. Cela permet d'aller au-delà de la détection d'objets standard ou de la classification d'images formées uniquement sur des classes vues. Des modèles comme YOLO-World s'appuient sur des idées similaires pour la détection de vocabulaires ouverts.
  2. Traitement du langage naturel (NLP ) - Identification des sujets et reconnaissance des intentions : Classification de documents, de courriels ou de requêtes d'utilisateurs en fonction de sujets ou d'intentions nouveaux, émergents et non présents dans l'ensemble de données d'entraînement initial. Par exemple, un chatbot d' assistance à la clientèle pourrait classer une requête concernant une nouvelle fonctionnalité de produit en utilisant la description de la fonctionnalité, sans avoir besoin d'exemples de formation explicites pour de telles requêtes. Cela permet de tirer parti de la puissance des grands modèles de langage (LLM) tels que GPT-4.

Défis et orientations futures

Malgré ses promesses, le ZSL est confronté à des défis tels que le problème du hubness (où certains points de l'espace sémantique deviennent les voisins les plus proches de nombreux points) et le changement de domaine (où la relation entre les caractéristiques et les attributs diffère entre les classes vues et les classes non vues). La recherche continue d'explorer des encastrements sémantiques plus robustes, de meilleures fonctions de mise en correspondance et des techniques telles que l'apprentissage généralisé à partir de zéro (Generalized Zero-Shot Learning - GZSL), qui vise à reconnaître les classes vues et non vues pendant l'inférence. Le développement de plateformes comme Ultralytics HUB pourrait faciliter l'intégration et le déploiement des capacités ZSL dans des applications pratiques d'IA visuelle. D'autres avancées pourraient s'inspirer de modèles multimodaux qui lient intrinsèquement la vision et le langage.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers