Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Apprentissage Zero-Shot

Découvrez l'apprentissage sans données d'entraînement (Zero-Shot Learning, ZSL) pour detect classify sans données d'entraînement. Découvrez comment Ultralytics YOLO permet la détection en temps réel avec un vocabulaire ouvert.

L'apprentissage sans supervision (Zero-Shot Learning, ZSL) est un paradigme d'apprentissage automatique qui permet aux modèles d'intelligence artificielle de reconnaître, de classify ou detect qu'ils n'ont jamais rencontrés pendant leur phase d'entraînement. Dans l'apprentissage supervisé traditionnel, un modèle nécessite des milliers d' exemples étiquetés pour chaque catégorie spécifique qu'il doit identifier. Le ZSL élimine cette dépendance stricte en exploitant des informations auxiliaires, généralement des descriptions textuelles, des attributs sémantiques ou des intégrations, afin de combler le fossé entre les classes visibles et invisibles . Cette capacité permet aux systèmes d'intelligence artificielle (IA) d' être nettement plus flexibles, évolutifs et capables de gérer des environnements dynamiques où la collecte de données exhaustives pour chaque objet possible est impraticable.

Comment fonctionne l'apprentissage à partir de zéro

Le mécanisme central du ZSL consiste à transférer des connaissances de concepts familiers vers des concepts inconnus à l'aide d'un espace sémantique partagé. Au lieu d'apprendre à reconnaître un « zèbre » uniquement en mémorisant des motifs de pixels de rayures noires et blanches, le modèle apprend la relation entre les caractéristiques visuelles et les attributs sémantiques (par exemple, « forme semblable à celle d'un cheval », « motif rayé », « quatre pattes ») dérivés du traitement du langage naturel (NLP).

Ce processus s'appuie souvent sur des modèles multimodaux qui alignent les représentations d'images et de textes . Par exemple, des recherches fondamentales telles que le CLIP d'OpenAI démontrent comment les modèles peuvent apprendre des concepts visuels à partir d'une supervision en langage naturel. Lorsqu'un modèle ZSL rencontre un objet inconnu, il en extrait les caractéristiques visuelles et les compare à un dictionnaire de vecteurs sémantiques. Si les caractéristiques visuelles correspondent à la description sémantique de la nouvelle classe, le modèle peut classify correctement, effectuant ainsi une prédiction « zero-shot ». Cette approche est fondamentale pour les modèles de base modernes qui se généralisent à travers un vaste éventail de tâches.

Applications concrètes

L'apprentissage sans données (Zero-Shot Learning) stimule l'innovation dans divers secteurs en permettant aux systèmes de généraliser au-delà de leurs données d'entraînement initiales.

  1. Détection d'objets à vocabulaire ouvert : les architectures modernes telles que YOLO utilisent le ZSL pour detect à partir de suggestions textuelles définies par l'utilisateur. Cela permet la détection d'objets dans des scénarios où il est impossible de définir à l'avance une liste fixe de classes, comme la recherche d'éléments spécifiques dans de vastes archives vidéo. Les chercheurs de Google continuent de repousser les limites de ces capacités à vocabulaire ouvert.
  2. Diagnostic médical : dans le domaine de l' IA appliquée à la santé, l'obtention de données étiquetées pour les maladies rares est souvent difficile et coûteuse. Les modèles ZSL peuvent être entraînés sur des pathologies courantes et des descriptions de symptômes rares tirées de la littérature médicale disponible dans des bases de données telles que PubMed, ce qui permet au système de signaler des anomalies rares potentielles dans l'imagerie médicale sans nécessiter un ensemble de données massif de cas positifs.
  3. Conservation de la faune sauvage : pour l' IA dans l'agriculture et l'écologie, il est essentiel d'identifier les espèces menacées qui sont rarement photographiées. ZSL permet aux défenseurs de l'environnement de detect animaux à l'aide de descriptions basées sur des attributs définis dans des bases de données biologiques telles que l' Encyclopedia of Life.

Détection des coups de feu avec Ultralytics

Le modèle Ultralytics YOLO illustre parfaitement le fonctionnement du Zero-Shot Learning. Il permet aux utilisateurs de définir des classes personnalisées de manière dynamique lors de l'exécution sans avoir à réentraîner le modèle. Pour ce faire, il connecte une infrastructure de détection robuste à un encodeur de texte qui comprend le langage naturel.

Python suivant montre comment utiliser YOLO pour detect qui ne faisaient pas explicitement partie d'un ensemble d'apprentissage standard à l'aide du ultralytics l'emballage.

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model capable of Zero-Shot Learning
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes via text prompts (e.g., specific accessories)
# The model adjusts to detect these new classes without retraining
model.set_classes(["blue backpack", "red apple", "sunglasses"])

# Run inference on an image to detect the new zero-shot classes
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

Distinction par rapport aux concepts apparentés

Pour bien comprendre le ZSL, il est utile de le distinguer des stratégies d'apprentissage similaires utilisées dans les domaines suivants vision par ordinateur (VA):

  • Apprentissage à partir de quelques exemples (FSL): alors que le ZSL ne nécessite aucun exemple de la classe cible, le FSL fournit au modèle un très petit ensemble de support (généralement 1 à 5 exemples) pour s'adapter. Le ZSL est généralement considéré comme plus difficile, car il repose entièrement sur l'inférence sémantique plutôt que sur des exemples visuels.
  • Apprentissage unique: Un sous-ensemble de FSL où le modèle apprend à partir d'un seul exemple étiqueté. Le ZSL est fondamentalement différent car il fonctionne sans une seule image de la nouvelle catégorie. une seule image de la nouvelle catégorie.
  • Apprentissage par transfert: Ce terme général Ce terme général fait référence au transfert de connaissances d'une tâche à une autre. ZSL est un type spécifique d'apprentissage par transfert qui qui utilise des attributs sémantiques pour transférer des connaissances à des classes inédites sans qu'il soit nécessaire de procéder à une mise au point traditionnelle sur de nouvelles données. traditionnelles sur de nouvelles données.

Défis et perspectives d'avenir

Bien que le ZSL offre un immense potentiel, il est confronté à des défis tels que le problème de changement de domaine, où les attributs sémantiques appris pendant l'entraînement ne correspondent pas parfaitement à l'apparence visuelle des classes non vues. De plus, les modèles ZSL peuvent souffrir de biais, où la précision des prédictions est nettement plus élevée pour les classes vues que pour celles non vues.

Les recherches menées par des organisations telles que le laboratoire d'intelligence artificielle de l'université de Stanford et l' IEEE Computer Society continuent de s'attaquer à ces limites. À mesure que les outils de vision par ordinateur deviennent plus robustes, le ZSL devrait devenir une fonctionnalité standard, réduisant ainsi la dépendance à l'égard des efforts massifs d' étiquetage des données. Pour les équipes qui cherchent à gérer efficacement les ensembles de données avant de déployer des modèles avancés, Ultralytics offre des outils complets pour l'annotation et la gestion des ensembles de données.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant