Glossaire

CLIP (Pré-entraînement Contrastif Langue-Image)

Découvrez comment CLIP d'OpenAI révolutionne l'IA grâce à l'apprentissage à partir de zéro, à l'alignement image-texte et à des applications concrètes dans le domaine de la vision par ordinateur.

CLIP (Contrastive Language-Image Pre-training) est un modèle multimodal révolutionnaire développé par OpenAI qui relie le texte et les images dans un espace de compréhension partagé. Contrairement aux modèles traditionnels formés pour une tâche unique comme la classification d'images, CLIP apprend des concepts visuels directement à partir de descriptions en langage naturel. Il est formé sur un ensemble massif de paires image-texte provenant d'Internet, ce qui lui permet d'effectuer une grande variété de tâches sans avoir besoin d'une formation spécifique pour chacune d'entre elles - une capacité connue sous le nom d'apprentissage à partir de zéro. Cette approche en fait un puissant modèle de base pour une nouvelle génération d'applications d'intelligence artificielle.

Comment ça marche

L'idée centrale de CLIP est d'apprendre un espace d'intégration partagé dans lequel les images et le texte peuvent être représentés sous forme de vecteurs. Il utilise deux encodeurs distincts : un transformateur de vision (ViT) ou une architecture similaire pour les images et un transformateur de texte pour le texte. Pendant l'apprentissage, le modèle reçoit un lot de paires image-texte et apprend à prédire quelle légende correspond à quelle image. Cet objectif est atteint grâce à l'apprentissage contrastif, où le but du modèle est de maximiser la similarité des encastrements pour les paires correctes et de la minimiser pour les paires incorrectes. Le résultat, détaillé dans l'article de recherche original, est une compréhension robuste des concepts qui relie les données visuelles au contexte linguistique. Une implémentation open-source, OpenCLIP, entraînée sur des ensembles de données tels que LAION-5B, a rendu cette technologie largement accessible.

Applications dans le monde réel

Les capacités uniques du CLIP se prêtent à plusieurs utilisations pratiques :

  • Recherche sémantique d'images: CLIP alimente des systèmes de recherche avancés dans lesquels les utilisateurs peuvent trouver des images en utilisant des requêtes en langage naturel plutôt que des étiquettes de mots-clés. Par exemple, un utilisateur peut rechercher dans un catalogue de commerce électronique "une chemise bleue à rayures pour homme" et obtenir des résultats pertinents même si les produits ne sont pas explicitement étiquetés avec ces mots exacts. Ultralytics propose une solution de recherche sémantique d'images qui utilise CLIP et FAISS (Facebook AI Similarity Search) pour une recherche rapide et précise dans de grandes bibliothèques d'images.
  • Modération du contenu: Les plateformes de médias sociaux peuvent utiliser CLIP pour signaler automatiquement les images représentant des contenus décrits dans leurs politiques, tels que les symboles de haine ou la violence graphique. Cette méthode est plus souple que les méthodes traditionnelles car elle permet d'identifier les violations sur la base d'une description textuelle, sans avoir besoin d'un ensemble de données pré-étiquetées pour chaque type possible de contenu interdit.
  • Guidage de l'IA générative: les encodeurs de CLIP sont essentiels pour guider les modèles d'IA générative tels que DALL-E ou Stable Diffusion. Lorsqu'un utilisateur fournit un texte, CLIP évalue l'image générée pour voir si elle correspond au sens du texte, guidant ainsi le modèle pour qu'il produise des images plus précises et plus pertinentes.
  • Amélioration de l'accessibilité: Le modèle peut générer automatiquement des légendes riches et descriptives pour les images, qui peuvent être utilisées par les lecteurs d'écran pour décrire le contenu visuel aux utilisateurs malvoyants, ce qui améliore considérablement l'accessibilité du web.

CLIP vs. YOLO

Il est important de distinguer CLIP des modèles de vision artificielle (CV) spécialisés comme Ultralytics YOLO.

  • CLIP excelle dans la compréhension sémantique. Il sait ce qu' une image contient au sens large et conceptuel (par exemple, il comprend le concept de "fête d'anniversaire"). Sa force est de relier le langage aux images pour des tâches telles que la classification et la recherche, ce qui en fait un puissant modèle de langage visuel.
  • Les modèles YOLO excellent dans la localisation. Ils sont conçus pour la détection et la segmentation d'objets, l'identification de l'emplacement précis et des limites des objets dans une image (par exemple, localiser chaque personne, le gâteau et les ballons lors d'une fête d'anniversaire).

Bien que distincts, ces modèles sont complémentaires. L'avenir de la CV pourrait consister à combiner le contexte sémantique de modèles tels que CLIP avec la précision de localisation de détecteurs tels que YOLO11 afin de construire des systèmes d'IA plus sophistiqués.

Limites et orientations futures

Malgré sa puissance, CLIP a des limites. Étant donné qu'il est entraîné sur de vastes données non sélectionnées provenant de l'internet, il peut absorber et reproduire les préjugés sociétaux trouvés dans ces données, ce qui suscite des inquiétudes quant à l'équité de l'IA et à la partialité potentielle des algorithmes. Il éprouve également des difficultés dans certaines tâches qui requièrent une grande finesse de détails ou un raisonnement spatial, comme le comptage précis d'objets. Les recherches en cours, notamment celles menées par des institutions telles que le Center for Research on Foundation Models (CRFM) de Stanford, se concentrent sur l'atténuation de ces biais et l'amélioration de ses capacités. L'intégration des connaissances de CLIP dans différents flux de travail peut être gérée par des plateformes comme Ultralytics HUB, qui simplifie la gestion des modèles et des ensembles de données.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers