Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

CLIP (Contrastive Language-Image Pre-training - Pré-entraînement Contraste Langage-Image)

Découvrez comment CLIP d'OpenAI révolutionne l'IA avec l'apprentissage zéro-shot, l'alignement image-texte et les applications concrètes dans la vision par ordinateur.

CLIP (Contrastive Language-Image Pre-training) est un modèle multimodal révolutionnaire développé par OpenAI qui relie le texte et les images dans un espace de compréhension partagé. Contrairement aux modèles traditionnels entraînés pour une seule tâche comme la classification d'images, CLIP apprend les concepts visuels directement à partir de descriptions en langage naturel. Il est entraîné sur un ensemble de données massif de paires image-texte provenant d'Internet, ce qui lui permet d'effectuer une grande variété de tâches sans avoir besoin d'un entraînement spécifique pour chacune d'elles, une capacité connue sous le nom d'apprentissage zéro-shot. Cette approche en fait un modèle de fondation puissant pour une nouvelle génération d'applications d'IA.

Comment ça marche

L'idée centrale de CLIP est d'apprendre un espace d'incorporation partagé où les images et le texte peuvent être représentés sous forme de vecteurs. Il utilise deux encodeurs distincts : un Vision Transformer (ViT) ou une architecture similaire pour les images et un Transformer de texte pour le texte. Pendant l'entraînement, le modèle reçoit un lot de paires image-texte et apprend à prédire quelle légende textuelle correspond à quelle image. Ceci est réalisé grâce à l'apprentissage contrastif, où l'objectif du modèle est de maximiser la similarité des incorporations pour les paires correctes tout en la minimisant pour les paires incorrectes. Le résultat, détaillé dans le document de recherche original, est une compréhension robuste des concepts qui relie les données visuelles au contexte linguistique. Une implémentation open source, OpenCLIP, entraînée sur des ensembles de données comme LAION-5B, a rendu cette technologie largement accessible.

Applications concrètes

Les capacités uniques de CLIP se prêtent à plusieurs utilisations pratiques :

  • Recherche sémantique d'images : CLIP alimente des systèmes de recherche avancés où les utilisateurs peuvent trouver des images en utilisant des requêtes en langage naturel au lieu de balises de mots-clés. Par exemple, un utilisateur pourrait rechercher dans un catalogue de commerce électronique "une chemise bleue à rayures pour hommes" et obtenir des résultats pertinents même si les produits ne sont pas explicitement étiquetés avec ces mots exacts. Ultralytics offre une solution de recherche sémantique d'images qui utilise CLIP et FAISS (Facebook AI Similarity Search) pour une récupération rapide et précise dans de grandes bibliothèques d'images.
  • Modération de contenu : Les plateformes de médias sociaux peuvent utiliser CLIP pour signaler automatiquement les images qui décrivent le contenu décrit dans leurs politiques, comme les symboles de haine ou la violence graphique. Ceci est plus flexible que les méthodes traditionnelles car il peut identifier les violations basées sur une description textuelle, sans avoir besoin d'un ensemble de données pré-étiqueté pour chaque type possible de contenu interdit.
  • Guider l'IA générative : Les encodeurs de CLIP sont essentiels pour diriger les modèles d'IA générative comme DALL-E ou Stable Diffusion. Lorsqu'un utilisateur fournit une invite textuelle, CLIP évalue l'image générée pour voir dans quelle mesure elle correspond au sens de l'invite, guidant ainsi le modèle pour produire des visuels plus précis et pertinents.
  • Amélioration de l'accessibilité : Le modèle peut générer automatiquement des légendes riches et descriptives pour les images, qui peuvent être utilisées par les lecteurs d'écran pour décrire le contenu visuel aux utilisateurs malvoyants, améliorant considérablement l'accessibilité web.

CLIP vs. YOLO

Il est important de distinguer CLIP des modèles spécialisés de vision par ordinateur (CV) comme Ultralytics YOLO.

  • CLIP excelle dans la compréhension sémantique. Il sait ce que contient une image dans un sens large et conceptuel (par exemple, il comprend le concept de « fête d’anniversaire »). Sa force réside dans la connexion du langage aux visuels pour des tâches telles que la classification et la recherche, ce qui en fait un puissant modèle de langage de vision.
  • Les modèles YOLO excellent dans la localisation. Ils sont conçus pour la détection d'objets et la segmentation, identifiant l'emplacement précis et les limites des objets dans une image (par exemple, localiser chaque personne, le gâteau et les ballons lors d'une fête d'anniversaire).

Bien que distincts, ces modèles sont complémentaires. L'avenir de la CV pourrait impliquer la combinaison du contexte sémantique de modèles comme CLIP avec la précision de localisation de détecteurs comme YOLO11 pour construire des systèmes d'IA plus sophistiqués.

Limites et orientations futures

Malgré sa puissance, CLIP a des limites. Puisqu'il est entraîné sur de vastes données non organisées provenant d'Internet, il peut absorber et reproduire les biais sociétaux présents dans ces données, ce qui soulève des préoccupations quant à l'équité dans l'IA et au potentiel biais algorithmique. Il a également du mal avec certaines tâches qui nécessitent des détails précis ou un raisonnement spatial, comme le comptage précis d'objets. La recherche en cours, y compris les travaux menés dans des institutions comme le Center for Research on Foundation Models (CRFM) de Stanford, se concentre sur l'atténuation de ces biais et l'amélioration de ses capacités. L'intégration des connaissances de CLIP dans différents flux de travail peut être gérée avec des plateformes comme Ultralytics HUB, qui simplifie la gestion des modèles et des ensembles de données.

Rejoignez la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant
Lien copié dans le presse-papiers