Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

SigLIP

Découvrez SigLIP, une approche de fonction de perte sigmoïde économe en mémoire pour les modèles vision-langage. Découvrez comment elle améliore la scalabilité et l'entraînementYOLO Ultralytics .

SigLIP, acronyme de « Sigmoid Loss for Language Image Pre-Training », est une approche très efficace pour l'entraînement des modèles vision-langage. Initialement proposée par des chercheurs de Google , cette méthode révolutionne la manière dont les modèles d'IA apprennent la relation entre les images et leurs descriptions textuelles correspondantes. En remplaçant les fonctions de probabilité traditionnelles par une approche de classification binaire plus simple, SigLIP permet aux développeurs de former des architectures multimodales massives avec une charge mémoire nettement réduite et une plus grande efficacité de calcul.

Comprendre l'architecture

Dans les pipelines classiques d'apprentissage automatique qui associent des données visuelles et textuelles, les modèles s'appuient généralement sur une vue d'ensemble de toutes les données d'un lot donné pour apprendre correctement. SigLIP élimine ce goulot d'étranglement en traitant chaque paire image-texte comme un problème de classification binaire indépendant. À l'aide d'une fonction sigmoïde standard, le modèle se contente de prédire si une image et une description textuelle spécifiques correspondent ou non.

Cette approche localisée de la fonction de perte signifie que la mémoire requise pendant l'entraînement du modèle évolue de manière linéaire plutôt que quadratique. Par conséquent, les ingénieurs peuvent utiliser des tailles de lots nettement plus importantes sur des configurations matérielles standard prises en charge par des frameworks tels que PyTorch, ce qui se traduit par de meilleures performances sur divers ensembles de données sans nécessiter d’augmentation exponentielle des GPU .

Distinguer SigLIP de CLIP

Lorsqu'on examine les architectures modernes d'IA, il est essentiel de distinguer SigLIP de son prédécesseur, CLIP (Contrastive Language-Image Pre-training).

  • CLIP: S'appuie sur une fonction de perte softmax, qui exige que le modèle compare simultanément une image à toutes les descriptions textuelles d'un lot. Cela crée un goulot d'étranglement important au niveau de la mémoire pendant l' entraînement au deep learning à mesure que la taille des lots augmente.
  • SigLIP: utilise une perte sigmoïde par paires. Il suffit d'évaluer si une paire image-texte correspond ou non, ce qui le rend hautement évolutif et plus facile à répartir sur plusieurs appareils lors de l'optimisation des flux de travail d'intelligence artificielle.

Applications concrètes

Grâce à sa conception économe en mémoire, SigLIP constitue une base solide pour diverses applications concrètes dans le secteur des technologies :

  • Classification d'images « zero-shot »: SigLIP excelle dans la classification d'images dans de nouvelles catégories qu'il n'a jamais explicitement vues pendant l'entraînement. Cela s'avère extrêmement utile pour les systèmes de classification d'images dynamiques où les catégories changent fréquemment, éliminant ainsi le besoin d'un étiquetage manuel constant des données.
  • Moteurs de recherche sémantiques: En générant des représentations multimodales extrêmement précises, SigLIP alimente des systèmes de recherche avancés. Les utilisateurs peuvent saisir des requêtes textuelles complexes pour effectuer des recherches avec une grande précision dans d'énormes bases de données d'images non structurées.

Lorsqu'il s'agit de gérer des données personnalisées pour ce type de tâches de vision complexes, les équipes se tournent souvent vers Ultralytics afin de rationaliser l'annotation des ensembles de données dans le cloud et d' intégrer de manière transparente les informations issues du texte et des images avant de déployer des modèles avancés tels que Ultralytics pour une inférence en périphérie à grande vitesse.

Exemple de mise en œuvre

Pour comprendre comment SigLIP calcule la perte à un niveau fondamental, vous pouvez simuler le processus à l'aide d'opérations PyTorch de base. Cet extrait de code montre comment l'approche sigmoïde par paires remplace la logique probabiliste multiclasses traditionnelle.

import torch
import torch.nn.functional as F

# Simulate image and text embeddings from a vision-language model
image_embeddings = torch.randn(4, 256)
text_embeddings = torch.randn(4, 256)

# Calculate pairwise similarities (logits)
logits = torch.matmul(image_embeddings, text_embeddings.T)

# SigLIP uses a binary formulation: 1 for positive pairs, -1 for negative pairs
labels = torch.eye(4) * 2 - 1
loss = -F.logsigmoid(labels * logits).mean()

print(f"Calculated SigLIP Loss: {loss.item():.4f}")

Grâce à cette approche rationalisée, la communauté de l'IA dans son ensemble, y compris les chercheurs publiant au sein d'institutions telles que l'IEEE et l'ACM, continue de repousser les limites de l'apprentissage multimodal, en établissant de nouvelles recommandations et bonnes pratiques en matière d'entraînement des modèles pour la prochaine génération d'IA visuelle.

Construisons ensemble l'avenir de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique