Glossaire

SigLIP

Découvrez SigLIP, une approche de fonction de perte sigmoïde économe en mémoire pour les modèles vision-langage. Découvrez comment elle améliore la scalabilité et l'entraînementYOLO Ultralytics .

SigLIP, acronyme de « Sigmoid Loss for Language Image Pre-Training », est une approche très efficace pour l'entraînement des modèles vision-langage. Initialement proposée par des chercheurs de Google , cette méthode révolutionne la manière dont les modèles d'IA apprennent la relation entre les images et leurs descriptions textuelles correspondantes. En remplaçant les fonctions de probabilité traditionnelles par une approche de classification binaire plus simple, SigLIP permet aux développeurs de former des architectures multimodales massives avec une charge mémoire nettement réduite et une plus grande efficacité de calcul.

Comprendre l'architecture

Dans les pipelines classiques d'apprentissage automatique qui associent des données visuelles et textuelles, les modèles s'appuient généralement sur une vue d'ensemble de toutes les données d'un lot donné pour apprendre correctement. SigLIP élimine ce goulot d'étranglement en traitant chaque paire image-texte comme un problème de classification binaire indépendant. À l'aide d'une fonction sigmoïde standard, le modèle se contente de prédire si une image et une description textuelle spécifiques correspondent ou non.

Cette approche localisée de la fonction de perte signifie que la mémoire requise pendant l'entraînement du modèle évolue de manière linéaire plutôt que quadratique. Par conséquent, les ingénieurs peuvent utiliser des tailles de lots nettement plus importantes sur des configurations matérielles standard prises en charge par des frameworks tels que PyTorch, ce qui se traduit par de meilleures performances sur divers ensembles de données sans nécessiter d’augmentation exponentielle des GPU .

Distinguer SigLIP de CLIP

Lorsqu'on examine les architectures modernes d'IA, il est essentiel de distinguer SigLIP de son prédécesseur, CLIP (Contrastive Language-Image Pre-training).

CLIP: S'appuie sur une fonction de perte softmax, qui exige que le modèle compare simultanément une image à toutes les descriptions textuelles d'un lot. Cela crée un goulot d'étranglement important au niveau de la mémoire pendant l' entraînement au deep learning à mesure que la taille des lots augmente.
SigLIP: utilise une perte sigmoïde par paires. Il suffit d'évaluer si une paire image-texte correspond ou non, ce qui le rend hautement évolutif et plus facile à répartir sur plusieurs appareils lors de l'optimisation des flux de travail d'intelligence artificielle.

Applications concrètes

Grâce à sa conception économe en mémoire, SigLIP constitue une base solide pour diverses applications concrètes dans le secteur des technologies :

Classification d'images « zero-shot »: SigLIP excelle dans la classification d'images dans de nouvelles catégories qu'il n'a jamais explicitement vues pendant l'entraînement. Cela s'avère extrêmement utile pour les systèmes de classification d'images dynamiques où les catégories changent fréquemment, éliminant ainsi le besoin d'un étiquetage manuel constant des données.
Moteurs de recherche sémantiques: En générant des représentations multimodales extrêmement précises, SigLIP alimente des systèmes de recherche avancés. Les utilisateurs peuvent saisir des requêtes textuelles complexes pour effectuer des recherches avec une grande précision dans d'énormes bases de données d'images non structurées.

Lorsqu'il s'agit de gérer des données personnalisées pour ce type de tâches de vision complexes, les équipes se tournent souvent vers Ultralytics afin de rationaliser l'annotation des ensembles de données dans le cloud et d' intégrer de manière transparente les informations issues du texte et des images avant de déployer des modèles avancés tels que Ultralytics pour une inférence en périphérie à grande vitesse.

Exemple de mise en œuvre

Pour comprendre comment SigLIP calcule la perte à un niveau fondamental, vous pouvez simuler le processus à l'aide d'opérations PyTorch de base. Cet extrait de code montre comment l'approche sigmoïde par paires remplace la logique probabiliste multiclasses traditionnelle.

import torch
import torch.nn.functional as F

# Simulate image and text embeddings from a vision-language model
image_embeddings = torch.randn(4, 256)
text_embeddings = torch.randn(4, 256)

# Calculate pairwise similarities (logits)
logits = torch.matmul(image_embeddings, text_embeddings.T)

# SigLIP uses a binary formulation: 1 for positive pairs, -1 for negative pairs
labels = torch.eye(4) * 2 - 1
loss = -F.logsigmoid(labels * logits).mean()

print(f"Calculated SigLIP Loss: {loss.item():.4f}")

Grâce à cette approche rationalisée, la communauté de l'IA dans son ensemble, y compris les chercheurs publiant dans des revues telles que celles de l'IEEE et de l'ACM, continue de repousser les limites de l'apprentissage multimodal, en établissant de nouvelles recommandations et bonnes pratiques en matière d'entraînement des modèles pour la prochaine génération d'IA visuelle.

SigLIP

Exportation vers plus de 17 formats. Déploiement dans 43 régions du monde.

Entraînez YOLO26 sur des GPU H100 pour 2,39 $/heure.

Des licences d'entreprise flexibles pour donner vie à vos projets d'IA visuelle.

Des licences d'entreprise conçues pour dynamiser votre prochain projet

Étiquetez jusqu'à 10 fois plus vite grâce à l'annotation intelligente

Annoter. Entraîner. Déployer. Le tout sur une seule et même plateforme.

Comprendre l'architecture

Distinguer SigLIP de CLIP

Applications concrètes

Exemple de mise en œuvre

En savoir plus dans cette catégorie

Comment exporterYOLO Ultralytics à l'aide de Ultralytics

Détection d'un empilage de palettes dangereux à l'aide d'Ultralytics

Guide d'annotation des polygones avec Ultralytics

Construisons ensemble l'avenir de l'IA !

SigLIP

Exportation vers plus de 17 formats. Déploiement dans 43 régions du monde.

Entraînez YOLO26 sur des GPU H100 pour 2,39 $/heure.

Des licences d'entreprise flexibles pour donner vie à vos projets d'IA visuelle.

Des licences d'entreprise conçues pour dynamiser votre prochain projet

Étiquetez jusqu'à 10 fois plus vite grâce à l'annotation intelligente

Annoter. Entraîner. Déployer. Le tout sur une seule et même plateforme.

Comprendre l'architecture

Distinguer SigLIP de CLIP

Applications concrètes

Exemple de mise en œuvre

En savoir plus dans cette catégorie

Comment exporterYOLO Ultralytics à l'aide de Ultralytics

Détection d'un empilage de palettes dangereux à l'aide d'Ultralytics

Guide d'annotation des polygones avec Ultralytics

Construisons ensemble l'avenir de l'IA !

Annoter. Entraîner. Déployer. Le tout sur une seule et même plateforme.