Glossaire

CLIP (Pré-entraînement Contrastif Langue-Image)

Découvre comment le CLIP d'OpenAI révolutionne l'IA grâce à l'apprentissage zéro-coup, à l'alignement image-texte et à des applications réelles en vision par ordinateur.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

CLIP (Contrastive Language-Image Pre-training) est un réseau neuronal polyvalent développé par OpenAI qui excelle dans la compréhension de concepts visuels décrits dans le langage de tous les jours. Contrairement aux modèles traditionnels de classification d'images qui nécessitent des ensembles de données méticuleusement étiquetés, CLIP apprend en analysant des centaines de millions de paires image-texte extraites d'Internet. Il utilise une technique appelée apprentissage contrastif pour saisir les relations complexes entre les images et leurs descriptions textuelles correspondantes. Cette approche de formation unique permet à CLIP d'obtenir des résultats exceptionnels dans diverses tâches sans formation spécifique, une capacité puissante connue sous le nom d'apprentissage zéro.

Comment fonctionne le clip

L'architecture de CLIP se compose de deux parties principales : un encodeur d'images et un encodeur de texte. Le codeur d'images, qui utilise souvent des architectures telles que Vision Transformer (ViT) ou ResNet, traite les images pour en extraire les principales caractéristiques visuelles. Parallèlement, l'encodeur de texte, généralement basé sur le modèle Transformer qui prévaut dans le traitement du langage naturel (NLP), analyse les descriptions textuelles associées pour capturer leur signification sémantique. Au cours de la phase d'apprentissage, CLIP apprend à projeter les représentations(embeddings) des images et du texte dans un espace multidimensionnel partagé. L'objectif principal du processus d'apprentissage contrastif est de maximiser la similarité (souvent mesurée par la similarité cosinus) entre les intégrations des paires image-texte correctes tout en minimisant simultanément la similarité pour les paires incorrectes dans un lot donné. Cette méthode permet d'enseigner efficacement au modèle à relier les motifs visuels aux mots et phrases pertinents, comme l'explique en détail l'article original de CLIP.

Principales caractéristiques et avantages

L'avantage le plus important de CLIP est sa remarquable capacité d'apprentissage zéro. Puisqu'il apprend un lien large entre les données visuelles et le langage plutôt que des catégories fixes, il peut classer des images sur la base de descriptions textuelles entièrement nouvelles qu'il n'a jamais rencontrées au cours de la formation, ce qui élimine dans de nombreux cas la nécessité d'une mise au point spécifique à la tâche. Par exemple, CLIP pourrait potentiellement identifier une image décrite comme "un croquis d'un chien bleu" même s'il n'a pas été explicitement formé sur des images étiquetées comme telles, en combinant les concepts appris de "croquis", "bleu" et "chien". Cette capacité d'adaptation rend CLIP très utile pour diverses applications de vision par ordinateur (VA). Il atteint souvent des performances compétitives, même lorsqu'il est comparé à des modèles formés dans le cadre de paradigmes d'apprentissage supervisé sur des ensembles de données de référence standard tels qu'ImageNet.

Clip vs. autres modèles

L'approche de CLIP diffère des autres modèles courants d'intelligence artificielle (IA) :

  • Classificateurs d'images supervisés : Les classificateurs traditionnels apprennent à partir d'ensembles de données où chaque image a une étiquette spécifique (par exemple, "chat", "chien"). Ils excellent dans les catégories prédéfinies mais ont du mal avec les concepts non vus. CLIP apprend à partir de paires image-texte non structurées, ce qui permet d'obtenir une classification à partir d'un texte arbitraire.
  • Modèles de détection d'objets : Modèles comme Ultralytics YOLO se concentrent sur la détection d'objets, en identifiant l'emplacement des objets dans une image à l'aide de boîtes de délimitation et en les classant. Bien qu'ils soient puissants pour les tâches de localisation telles que la détection ou la segmentation, ils ne possèdent pas la compréhension intrinsèque de CLIP des descriptions de langage arbitraires pour la classification. Tu peux voir des comparaisons entre les modèles YOLO pour les performances de détection.
  • Autres modèles vision-langage (VLM) : CLIP est un type de modèle multimodal. Alors que d'autres VLM peuvent se concentrer sur des tâches telles que la réponse à des questions visuelles (VQA) ou le sous-titrage détaillé d'images, la force principale de CLIP réside dans sa classification robuste d'images sans prise de vue et sa correspondance de similarité image-texte. Pour en savoir plus sur les différents types de VLM, consulte le blog d'Ultralytics .
  • Modèles génératifs : Les modèles comme Stable Diffusion ou DALL-E se concentrent sur la création d'images à partir de texte(texte-image). Bien que CLIP ne génère pas d'images lui-même, son encodeur de texte est souvent utilisé dans les modèles génératifs pour s'assurer que l'image de sortie s'aligne bien sur l'invite du texte d'entrée.

Applications dans le monde réel

Les capacités uniques de CLIP se prêtent à plusieurs utilisations pratiques :

  • Modération de contenu : Filtrer ou signaler automatiquement les images en fonction des descriptions textuelles du contenu inapproprié ou indésirable, sans avoir besoin d'exemples pré-étiquetés de toutes les violations possibles. OpenAI utilise CLIP dans le cadre de son outil de modération de contenu.
  • Recherche sémantique d'images : Permettre aux utilisateurs de rechercher de vastes bibliothèques d'images (comme les sites de photos de stock tels que Unsplash ou les collections de photos personnelles) en utilisant des requêtes en langage naturel au lieu de simples mots-clés ou tags. Par exemple, rechercher "une plage sereine au coucher du soleil avec des palmiers".
  • Améliorer l'accessibilité : Générer automatiquement des descriptions d'images pertinentes pour les utilisateurs malvoyants.
  • Guider l'IA générative : Comme nous l'avons mentionné, les encodeurs de CLIP aident à orienter les modèles d'IA générative pour produire des images qui reflètent avec précision des invites textuelles complexes.

Limites et orientations futures

Malgré ses capacités révolutionnaires, CLIP n'est pas sans limites. Sa dépendance à l'égard de vastes données Internet non curées signifie qu'il peut hériter des préjugés sociétaux présents dans le texte et les images, ce qui soulève des inquiétudes quant à l'équité dans l'IA et à la partialité algorithmique potentielle. En outre, CLIP peut éprouver des difficultés à accomplir des tâches nécessitant un raisonnement spatial précis (par exemple, compter des objets avec exactitude) ou à reconnaître des détails visuels extrêmement fins. La recherche explore activement des méthodes permettant d'atténuer ces biais, d'améliorer la compréhension fine et d'intégrer les connaissances sémantiques de CLIP aux forces de localisation de modèles tels que YOLOv11. La combinaison de différents types de modèles et la gestion des expériences peuvent être rationalisées à l'aide de plateformes comme Ultralytics HUB. Reste au courant des derniers développements en matière d'IA grâce à des ressources telles que le blog d'Ultralytics .

Tout lire