Découvre YOLO26 : l'IA de vision de nouvelle génération.
Ultralytics
Retour au glossaire Ultralytics

SigLIP

Explore SigLIP, l'approche de perte sigmoïde efficace en mémoire pour les modèles vision-langage. Apprends comment elle améliore la mise à l'échelle et l'entraînement pour les projets Ultralytics YOLO.

SigLIP, qui signifie Sigmoid Loss for Language Image Pre-Training, est une approche hautement efficace pour l'entraînement de modèles vision-langage. Initialement introduite par des chercheurs de Google Research, cette méthode modifie fondamentalement la manière dont les modèles d'IA apprennent la relation entre les images et leurs descriptions textuelles correspondantes. En remplaçant les fonctions de probabilité traditionnelles par une approche de classification binaire plus simple, SigLIP permet aux développeurs d'entraîner des architectures multimodales massives avec une charge mémoire nettement réduite et une efficacité computationnelle accrue.

Link to this sectionComprendre l'architecture#

Dans les pipelines d'apprentissage automatique standard qui associent des données visuelles et textuelles, les modèles s'appuient généralement sur une vue globale de toutes les données au sein d'un lot pour apprendre correctement. SigLIP élimine ce goulot d'étranglement en traitant chaque paire image-texte comme un problème de classification binaire indépendant. En utilisant une fonction sigmoïde standard, le modèle prédit simplement si une image spécifique et une description textuelle correspondent ou non.

Cette approche localisée de la fonction de perte signifie que la mémoire requise lors de l'entraînement du modèle évolue de manière linéaire plutôt que quadratique. Par conséquent, les ingénieurs peuvent utiliser des tailles de lots nettement plus importantes sur des configurations matérielles standard supportées par des frameworks comme PyTorch, ce qui conduit à une amélioration des performances sur divers jeux de données sans nécessiter d'augmentations exponentielles des ressources GPU.

Link to this sectionDistinguer SigLIP de CLIP#

Lors de l'exploration des architectures d'IA modernes, il est essentiel de différencier SigLIP de son prédécesseur, CLIP (Contrastive Language-Image Pre-training).

  • CLIP : Repose sur une fonction de perte softmax, qui nécessite que le modèle compare une image avec toutes les descriptions textuelles dans un lot simultanément. Cela crée un grave goulot d'étranglement mémoire lors de l'entraînement en apprentissage profond à mesure que la taille des lots augmente.
  • SigLIP : Utilise une perte sigmoïde par paire. Il n'a besoin que d'évaluer si une seule paire image-texte est une correspondance vraie ou fausse, ce qui le rend hautement évolutif et plus facile à distribuer sur plusieurs appareils lors de l'optimisation des flux de travail en intelligence artificielle.

Link to this sectionApplications concrètes#

La conception économe en mémoire de SigLIP en fait une base puissante pour diverses applications pratiques dans l'industrie technologique :

  • Classification d'images Zero-Shot : SigLIP excelle dans la catégorisation d'images dans de nouvelles classes qu'il n'a jamais vues explicitement pendant l'entraînement. C'est extrêmement utile pour les systèmes dynamiques de classification d'images où les catégories changent fréquemment, éliminant ainsi le besoin d'un étiquetage manuel constant des données.
  • Moteurs de recherche sémantique : En générant des plongements multimodaux très précis, SigLIP propulse des systèmes de recherche avancés. Tu peux saisir des requêtes textuelles complexes pour effectuer des recherches dans des bases de données d'images massives et non structurées avec une grande précision.

Lors de la gestion de données personnalisées pour ces types de tâches de vision complexes, les équipes se tournent souvent vers la plateforme Ultralytics pour rationaliser l'annotation des jeux de données dans le cloud et intégrer de manière transparente les informations textuelles et d'images avant de déployer des modèles avancés comme Ultralytics YOLO26 pour l'inférence en périphérie à haute vitesse.

Link to this sectionExemple d'implémentation#

Pour comprendre comment SigLIP calcule la perte à un niveau fondamental, tu peux simuler le processus en utilisant des opérations PyTorch de base. Cet extrait démontre comment l'approche sigmoïde par paire remplace la logique de probabilité multi-classes traditionnelle.

import torch
import torch.nn.functional as F

# Simulate image and text embeddings from a vision-language model
image_embeddings = torch.randn(4, 256)
text_embeddings = torch.randn(4, 256)

# Calculate pairwise similarities (logits)
logits = torch.matmul(image_embeddings, text_embeddings.T)

# SigLIP uses a binary formulation: 1 for positive pairs, -1 for negative pairs
labels = torch.eye(4) * 2 - 1
loss = -F.logsigmoid(labels * logits).mean()

print(f"Calculated SigLIP Loss: {loss.item():.4f}")

En tirant parti de cette approche rationalisée, la communauté élargie de l'IA, y compris les chercheurs publiant dans des institutions comme l'IEEE et l'ACM, continue de repousser les limites de l'apprentissage multimodal, établissant de nouveaux conseils pour l'entraînement de modèles et des meilleures pratiques pour la prochaine génération d'IA de vision.

Explore solutions

Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus

Construisons ensemble le futur de l'IA !

Commence ton aventure avec le futur de l'apprentissage automatique