Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Apprentissage Zero-Shot

Découvrez l'apprentissage à partir de zéro (Zero-Shot Learning) : une approche d'IA de pointe permettant aux modèles de classify données inédites, révolutionnant ainsi la détection d'objets, le NLP et bien plus encore.

L'apprentissage à partir de zéro (ZSL) est un paradigme puissant de l'apprentissage machine (ML) qui permet à l'intelligence artificielle de se développer. l 'apprentissage machine (ML) qui permet aux modèles d'intelligence de reconnaître, de classify ou de detect objets qu'ils n'ont jamais rencontrés au cours de la phase d'apprentissage. phase d'apprentissage. Dans l'apprentissage supervisé traditionnel, un modèle doit être formé sur des des milliers d'images étiquetées pour chaque catégorie spécifique qu'il doit identifier. ZSL élimine cette contrainte en en exploitant des informations auxiliaires - typiquement des descriptions textuelles, des attributs ou des sémantique pourcombler le fossé entre les classes vues et non vues. non vues. Cette capacité permet aux aux systèmes d'intelligence artificielle (IA) d'être d'intelligence artificielle (IA) d'être beaucoup plus flexibles, évolutifs et capables de gérer des environnements dynamiques où la collecte de données exhaustives pour tous les objets possibles est impraticable. données exhaustives pour chaque objet possible n'est pas pratique.

Comment fonctionne l'apprentissage à partir de zéro

Le mécanisme central de ZSL consiste à transférer des connaissances de concepts familiers à des concepts non familiers en utilisant un espace sémantique partagé. espace sémantique partagé. Au lieu d'apprendre à reconnaître un "chat" uniquement en mémorisant des motifs de pixels, le modèle apprend la relation entre les caractéristiques visuelles et les attributs sémantiques (par exemple, "fourrure", "moustaches", "quatre"). "moustaches", "quatre pattes") issus du traitement du traitement du langage naturel (NLP).

Ce processus repose souvent sur modèles multimodaux qui alignent les représentations et du texte. Par exemple, des recherches fondamentales telles que CLIP de l'OpenAI démontrent comment les modèles peuvent apprendre des concepts visuels à partir d'une supervision en langage naturel. à partir d'une supervision en langage naturel. Lorsqu'un modèle ZSL rencontre un objet inédit, tel qu'une espèce d'oiseau rare, il extrait les caractéristiques visuelles et les compare à un dictionnaire sémantique. caractéristiques visuelles et les compare à un dictionnaire de vecteurs sémantiques. Si les caractéristiques visuelles correspondent à la description sémantique de la nouvelle classe, le modèle peut la classify correctement, réalisant ainsi une prédiction "zéro-coup". prédiction "zéro coup".

Distinction par rapport aux concepts apparentés

Pour bien comprendre le ZSL, il est utile de le distinguer des stratégies d'apprentissage similaires utilisées dans les domaines suivants vision par ordinateur (VA):

  • L'apprentissage à la petite semaine (FSL): Alors que le ZSL ne nécessite aucun exemple de la classe cible, FSL fournit au modèle un très petit ensemble de support (typiquement 1 à 5 exemples) pour s'adapter. (généralement de 1 à 5 exemples) pour s'adapter. ZSL est plus difficile car il repose entièrement sur l'inférence sémantique plutôt que sur des exemples visuels. sémantique plutôt que sur des exemples visuels.
  • Apprentissage unique: Un sous-ensemble de FSL où le modèle apprend à partir d'un seul exemple étiqueté. Le ZSL est fondamentalement différent car il fonctionne sans une seule image de la nouvelle catégorie. une seule image de la nouvelle catégorie.
  • Apprentissage par transfert: Ce terme général Ce terme général fait référence au transfert de connaissances d'une tâche à une autre. ZSL est un type spécifique d'apprentissage par transfert qui qui utilise des attributs sémantiques pour transférer des connaissances à des classes inédites sans qu'il soit nécessaire de procéder à une mise au point traditionnelle sur de nouvelles données. traditionnelles sur de nouvelles données.

Applications concrètes

L'apprentissage Zero-Shot stimule l'innovation dans divers secteurs d'activité en permettant aux systèmes de se généraliser au-delà de leur formation initiale. formation initiale.

  1. Détection d'objets à vocabulaire ouvert : Les architectures modernes telles que YOLO utilisent ZSL pour detect objets sur la base de sur la base d'invites textuelles définies par l'utilisateur. Cela permet détection d'objets dans des scénarios où il est impossible de Cela permet de détecter des objets dans des scénarios où il est impossible de définir au préalable une liste fixe de classes, comme la recherche d'éléments spécifiques dans de vastes archives vidéo. Les chercheurs de Google Research et d'autres institutions travaillent activement à l'amélioration de ces capacités de vocabulaire ouvert. améliorent activement ces capacités de vocabulaire ouvert.
  2. Diagnostic médical : En l 'IA dans les soins de santé, il est difficile d'obtenir des données étiquetées pour les maladies rares. pour les maladies rares est difficile et coûteux. Les modèles ZSL peuvent être formés sur des conditions communes et des descriptions de symptômes rares provenant de manuels médicaux (par exemple, des articles de PubMed). de symptômes rares tirées de manuels médicaux (articles PubMed, par exemple), ce qui permet au système de détecter d'éventuelles anomalies rares dans des radiographies ou des IRM. de signaler les anomalies rares potentielles dans les radiographies ou les IRM sans avoir besoin d'un ensemble massif de données de cas positifs. cas.
  3. Conservation de la faune et de la flore : Pour AI dans les domaines de l'agriculture et de l'écologie, l'identification l'identification des espèces menacées qui sont rarement photographiées. ZSL permet aux défenseurs de la nature de detect ces animaux à l'aide de descriptions basées sur des attributs (par exemple, des motifs de fourrure ou des formes de cornes spécifiques) définies dans des bases de données biologiques telles que l'Encyclopédie de la vie. Encyclopédie de la vie.

Détection des coups de feu avec Ultralytics

Le modèle YOLOUltralytics illustre l'apprentissage à partir de zéro en action. en action. Il permet aux utilisateurs de définir des classes personnalisées de manière dynamique au moment de l'exécution sans avoir à réapprendre le modèle. Cela est possible en connectant les est réalisé en connectant le modèle YOLO11 avec un encodeur de texte basé sur un encodeur de texte basé sur CLIP.

L'exemple Python suivant montre comment utiliser YOLO pour detect objets qui ne font pas partie d'un jeu de données COCO standard, comme des couleurs spécifiques de vêtements, à l'aide d'un YOLO de données COCO standard. COCO standard, comme des couleurs spécifiques de vêtements, à l'aide de la fonction ultralytics l'emballage.

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes for Zero-Shot detection using text prompts
# The model will now look for these specific descriptions
model.set_classes(["blue backpack", "red apple", "person wearing sunglasses"])

# Run inference on an image to detect the new zero-shot classes
results = model.predict("path/to/image.jpg")

# Show the results
results[0].show()

Défis et perspectives d'avenir

Bien que ZSL offre un immense potentiel, il est confronté à des défis tels que le problème du changement de domaine, où les attributs sémantiques les attributs sémantiques appris au cours de la formation ne correspondent pas parfaitement à l'apparence visuelle des classes non vues. En outre, les modèles ZSL peuvent souffrir d'un biais, lorsque la précision de la prédiction est significativement plus élevée pour les classes vues que pour les classes non vues. pour les classes vues par rapport aux classes non vues (Generalized Zero-Shot Learning).

Les recherches menées par des organisations telles que le laboratoire d'IA de l'université de Stanford et l'IEEE Computer Society continuent de s'attaquer à ces limites. IEEE Computer Society continuent de s'attaquer à ces limites. Au fur et à mesure que les modèles de fondation devenant plus robustes, ZSL devrait ZSL devrait devenir une fonctionnalité standard outils de vision par ordinateur, réduisant la dépendance à l'égard des de données et démocratisant l'accès aux capacités avancées d'IA. aux capacités avancées de l'IA.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant