Découvrez l'apprentissage sans données d'entraînement (Zero-Shot Learning, ZSL) pour detect classify sans données d'entraînement. Découvrez comment Ultralytics YOLO permet la détection en temps réel avec un vocabulaire ouvert.
L'apprentissage sans supervision (Zero-Shot Learning, ZSL) est un paradigme d'apprentissage automatique qui permet aux modèles d'intelligence artificielle de reconnaître, de classify ou detect qu'ils n'ont jamais rencontrés pendant leur phase d'entraînement. Dans l'apprentissage supervisé traditionnel, un modèle nécessite des milliers d' exemples étiquetés pour chaque catégorie spécifique qu'il doit identifier. Le ZSL élimine cette dépendance stricte en exploitant des informations auxiliaires, généralement des descriptions textuelles, des attributs sémantiques ou des intégrations, afin de combler le fossé entre les classes visibles et invisibles . Cette capacité permet aux systèmes d'intelligence artificielle (IA) d' être nettement plus flexibles, évolutifs et capables de gérer des environnements dynamiques où la collecte de données exhaustives pour chaque objet possible est impraticable.
Le mécanisme central du ZSL consiste à transférer des connaissances de concepts familiers vers des concepts inconnus à l'aide d'un espace sémantique partagé. Au lieu d'apprendre à reconnaître un « zèbre » uniquement en mémorisant des motifs de pixels de rayures noires et blanches, le modèle apprend la relation entre les caractéristiques visuelles et les attributs sémantiques (par exemple, « forme semblable à celle d'un cheval », « motif rayé », « quatre pattes ») dérivés du traitement du langage naturel (NLP).
Ce processus s'appuie souvent sur des modèles multimodaux qui alignent les représentations d'images et de textes . Par exemple, des recherches fondamentales telles que le CLIP d'OpenAI démontrent comment les modèles peuvent apprendre des concepts visuels à partir d'une supervision en langage naturel. Lorsqu'un modèle ZSL rencontre un objet inconnu, il en extrait les caractéristiques visuelles et les compare à un dictionnaire de vecteurs sémantiques. Si les caractéristiques visuelles correspondent à la description sémantique de la nouvelle classe, le modèle peut classify correctement, effectuant ainsi une prédiction « zero-shot ». Cette approche est fondamentale pour les modèles de base modernes qui se généralisent à travers un vaste éventail de tâches.
L'apprentissage sans données (Zero-Shot Learning) stimule l'innovation dans divers secteurs en permettant aux systèmes de généraliser au-delà de leurs données d'entraînement initiales.
Le modèle Ultralytics YOLO illustre parfaitement le fonctionnement du Zero-Shot Learning. Il permet aux utilisateurs de définir des classes personnalisées de manière dynamique lors de l'exécution sans avoir à réentraîner le modèle. Pour ce faire, il connecte une infrastructure de détection robuste à un encodeur de texte qui comprend le langage naturel.
Python suivant montre comment utiliser YOLO pour detect qui ne faisaient pas explicitement partie d'un
ensemble d'apprentissage standard à l'aide du ultralytics l'emballage.
from ultralytics import YOLOWorld
# Load a pre-trained YOLO-World model capable of Zero-Shot Learning
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes via text prompts (e.g., specific accessories)
# The model adjusts to detect these new classes without retraining
model.set_classes(["blue backpack", "red apple", "sunglasses"])
# Run inference on an image to detect the new zero-shot classes
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
Pour bien comprendre le ZSL, il est utile de le distinguer des stratégies d'apprentissage similaires utilisées dans les domaines suivants vision par ordinateur (VA):
Bien que le ZSL offre un immense potentiel, il est confronté à des défis tels que le problème de changement de domaine, où les attributs sémantiques appris pendant l'entraînement ne correspondent pas parfaitement à l'apparence visuelle des classes non vues. De plus, les modèles ZSL peuvent souffrir de biais, où la précision des prédictions est nettement plus élevée pour les classes vues que pour celles non vues.
Les recherches menées par des organisations telles que le laboratoire d'intelligence artificielle de l'université de Stanford et l' IEEE Computer Society continuent de s'attaquer à ces limites. À mesure que les outils de vision par ordinateur deviennent plus robustes, le ZSL devrait devenir une fonctionnalité standard, réduisant ainsi la dépendance à l'égard des efforts massifs d' étiquetage des données. Pour les équipes qui cherchent à gérer efficacement les ensembles de données avant de déployer des modèles avancés, Ultralytics offre des outils complets pour l'annotation et la gestion des ensembles de données.