Découvre YOLO26 : l'IA de vision de nouvelle génération.
Ultralytics
Retour au glossaire Ultralytics

CLIP (Contrastive Language-Image Pre-training)

Explore CLIP (Contrastive Language-Image Pre-training) pour faire le pont entre la vision et le langage. Apprends comment il permet l'apprentissage zéro-shot et propulse Ultralytics YOLO26.

CLIP (Contrastive Language-Image Pre-training) est une architecture de réseau neuronal révolutionnaire développée par OpenAI qui fait le pont entre les données visuelles et le langage naturel. Contrairement aux systèmes de vision par ordinateur (CV) traditionnels qui nécessitent un étiquetage de données laborieux pour un ensemble fixe de catégories, CLIP apprend à comprendre les images en s'entraînant sur des millions de paires image-texte collectées sur Internet. Cette approche permet au modèle d'effectuer de l'apprentissage zéro-shot, ce qui signifie qu'il peut identifier des objets, des concepts ou des styles qu'il n'a jamais explicitement vus pendant l'entraînement, simplement en lisant une description textuelle. En mappant les informations visuelles et linguistiques dans un espace de caractéristiques partagé, CLIP sert de modèle de fondation puissant pour une grande variété de tâches en aval sans avoir besoin d'un fine-tuning extensif spécifique à la tâche.

Link to this sectionComment fonctionne l'architecture#

Le mécanisme central de CLIP implique deux encodeurs parallèles : un encodeur d'image, généralement basé sur un Vision Transformer (ViT) ou un ResNet, et un Transformer de texte similaire à ceux utilisés dans les grands modèles de langage (LLM) modernes. Grâce à un processus appelé apprentissage contrastif, le système est entraîné à prédire quel extrait de texte correspond à quelle image au sein d'un lot.

Pendant l'entraînement, le modèle optimise ses paramètres pour rapprocher les embeddings vectoriels des paires image-texte correspondantes tout en éloignant les paires non correspondantes. Cela crée un espace latent multimodal où la représentation mathématique d'une image d'un "golden retriever" est située spatialement près de l'embedding textuel pour "une photo de chien". En calculant la similitude cosinus entre ces vecteurs, le modèle peut quantifier à quel point une image correspond à une invite de langage naturel, permettant une classification d'image et une récupération flexibles.

Link to this sectionApplications concrètes#

La capacité à lier la vision et le langage a fait de CLIP une technologie angulaire dans les applications d'IA modernes :

  • Recherche sémantique intelligente : CLIP permet aux utilisateurs de rechercher dans de grandes bases de données d'images en utilisant des requêtes complexes de traitement du langage naturel (NLP). Par exemple, dans l'IA dans le commerce de détail, un acheteur pourrait rechercher "robe d'été fleurie vintage" et obtenir des résultats visuellement précis sans que les images ne possèdent ces balises de métadonnées spécifiques. Ceci est souvent propulsé par des bases de données vectorielles haute performance.
  • Contrôle de l'IA générative : Des modèles comme Stable Diffusion s'appuient sur CLIP pour interpréter les invites utilisateur et guider le processus de génération. CLIP agit comme un évaluateur, mesurant à quel point la sortie visuelle générée s'aligne avec la description textuelle, ce qui est essentiel pour une synthèse texte-vers-image de haute qualité.
  • Détection d'objets à vocabulaire ouvert : Des architectures avancées comme YOLO-World intègrent des embeddings CLIP pour détecter des objets basés sur des entrées textuelles arbitraires. Cela permet une détection dynamique dans des domaines comme l'IA dans la santé, où il est nécessaire d'identifier de nouveaux équipements ou anomalies sans réentraînement.

Link to this sectionUtiliser les fonctionnalités de CLIP avec Ultralytics#

Alors que les détecteurs d'objets standards sont limités à leurs classes d'entraînement, l'utilisation de fonctionnalités basées sur CLIP permet une détection à vocabulaire ouvert. Le code Python suivant démontre comment utiliser le paquet ultralytics pour détecter des objets en utilisant des invites textuelles personnalisées :

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model utilizing CLIP features
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language text prompts
model.set_classes(["person wearing sunglasses", "red backpack"])

# Run inference on an image to detect the text-defined objects
results = model.predict("travelers.jpg")

# Display the results
results[0].show()

Link to this sectionDistinguer les concepts apparentés#

Il est utile de différencier CLIP des autres paradigmes d'IA courants pour comprendre son utilité spécifique :

  • CLIP vs Apprentissage supervisé : Les modèles supervisés traditionnels nécessitent des définitions strictes et des exemples étiquetés pour chaque catégorie (par exemple, "chat", "voiture"). CLIP apprend à partir de paires texte-image brutes trouvées sur le Web, offrant une plus grande flexibilité et éliminant le goulot d'étranglement de l'annotation manuelle souvent géré via des outils comme la Plateforme Ultralytics.
  • CLIP vs YOLO26 : Alors que CLIP fournit une compréhension généralisée des concepts, YOLO26 est un détecteur d'objets spécialisé en temps réel, optimisé pour la vitesse et une localisation précise. CLIP est souvent utilisé comme extracteur de caractéristiques ou classificateur zéro-shot, tandis que YOLO26 est le moteur pour l'inférence en temps réel à haute vitesse dans les environnements de production.
  • CLIP vs Apprentissage contrastif standard : Des méthodes comme SimCLR comparent généralement deux vues augmentées de la même image pour apprendre des caractéristiques. CLIP contraste une image par rapport à une description textuelle, reliant deux modalités de données distinctes plutôt qu'une seule.

Explore solutions

Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus

Construisons ensemble le futur de l'IA !

Commence ton aventure avec le futur de l'apprentissage automatique