Découvrez l'apprentissage à partir de zéro (Zero-Shot Learning) : une approche d'IA de pointe permettant aux modèles de classify données inédites, révolutionnant ainsi la détection d'objets, le NLP et bien plus encore.
L'apprentissage à partir de zéro (ZSL) est un paradigme puissant de l'apprentissage machine (ML) qui permet à l'intelligence artificielle de se développer. l 'apprentissage machine (ML) qui permet aux modèles d'intelligence de reconnaître, de classify ou de detect objets qu'ils n'ont jamais rencontrés au cours de la phase d'apprentissage. phase d'apprentissage. Dans l'apprentissage supervisé traditionnel, un modèle doit être formé sur des des milliers d'images étiquetées pour chaque catégorie spécifique qu'il doit identifier. ZSL élimine cette contrainte en en exploitant des informations auxiliaires - typiquement des descriptions textuelles, des attributs ou des sémantique pourcombler le fossé entre les classes vues et non vues. non vues. Cette capacité permet aux aux systèmes d'intelligence artificielle (IA) d'être d'intelligence artificielle (IA) d'être beaucoup plus flexibles, évolutifs et capables de gérer des environnements dynamiques où la collecte de données exhaustives pour tous les objets possibles est impraticable. données exhaustives pour chaque objet possible n'est pas pratique.
Le mécanisme central de ZSL consiste à transférer des connaissances de concepts familiers à des concepts non familiers en utilisant un espace sémantique partagé. espace sémantique partagé. Au lieu d'apprendre à reconnaître un "chat" uniquement en mémorisant des motifs de pixels, le modèle apprend la relation entre les caractéristiques visuelles et les attributs sémantiques (par exemple, "fourrure", "moustaches", "quatre"). "moustaches", "quatre pattes") issus du traitement du traitement du langage naturel (NLP).
Ce processus repose souvent sur modèles multimodaux qui alignent les représentations et du texte. Par exemple, des recherches fondamentales telles que CLIP de l'OpenAI démontrent comment les modèles peuvent apprendre des concepts visuels à partir d'une supervision en langage naturel. à partir d'une supervision en langage naturel. Lorsqu'un modèle ZSL rencontre un objet inédit, tel qu'une espèce d'oiseau rare, il extrait les caractéristiques visuelles et les compare à un dictionnaire sémantique. caractéristiques visuelles et les compare à un dictionnaire de vecteurs sémantiques. Si les caractéristiques visuelles correspondent à la description sémantique de la nouvelle classe, le modèle peut la classify correctement, réalisant ainsi une prédiction "zéro-coup". prédiction "zéro coup".
Pour bien comprendre le ZSL, il est utile de le distinguer des stratégies d'apprentissage similaires utilisées dans les domaines suivants vision par ordinateur (VA):
L'apprentissage Zero-Shot stimule l'innovation dans divers secteurs d'activité en permettant aux systèmes de se généraliser au-delà de leur formation initiale. formation initiale.
Le modèle YOLOUltralytics illustre l'apprentissage à partir de zéro en action. en action. Il permet aux utilisateurs de définir des classes personnalisées de manière dynamique au moment de l'exécution sans avoir à réapprendre le modèle. Cela est possible en connectant les est réalisé en connectant le modèle YOLO11 avec un encodeur de texte basé sur un encodeur de texte basé sur CLIP.
L'exemple Python suivant montre comment utiliser YOLO pour detect objets qui ne font pas partie d'un jeu de données COCO standard, comme des couleurs spécifiques de vêtements, à l'aide d'un YOLO de données COCO standard.
COCO standard, comme des couleurs spécifiques de vêtements, à l'aide de la fonction ultralytics l'emballage.
from ultralytics import YOLOWorld
# Load a pre-trained YOLO-World model
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes for Zero-Shot detection using text prompts
# The model will now look for these specific descriptions
model.set_classes(["blue backpack", "red apple", "person wearing sunglasses"])
# Run inference on an image to detect the new zero-shot classes
results = model.predict("path/to/image.jpg")
# Show the results
results[0].show()
Bien que ZSL offre un immense potentiel, il est confronté à des défis tels que le problème du changement de domaine, où les attributs sémantiques les attributs sémantiques appris au cours de la formation ne correspondent pas parfaitement à l'apparence visuelle des classes non vues. En outre, les modèles ZSL peuvent souffrir d'un biais, lorsque la précision de la prédiction est significativement plus élevée pour les classes vues que pour les classes non vues. pour les classes vues par rapport aux classes non vues (Generalized Zero-Shot Learning).
Les recherches menées par des organisations telles que le laboratoire d'IA de l'université de Stanford et l'IEEE Computer Society continuent de s'attaquer à ces limites. IEEE Computer Society continuent de s'attaquer à ces limites. Au fur et à mesure que les modèles de fondation devenant plus robustes, ZSL devrait ZSL devrait devenir une fonctionnalité standard outils de vision par ordinateur, réduisant la dépendance à l'égard des de données et démocratisant l'accès aux capacités avancées d'IA. aux capacités avancées de l'IA.