Glossario

SigLIP

Scopri SigLIP, l'approccio basato su una funzione di perdita sigmoide a basso consumo di memoria per i modelli di visione-linguaggio. Scopri come migliora la scalabilità e l'addestramento neiYOLO Ultralytics .

SigLIP, acronimo di Sigmoid Loss for Language Image Pre-Training, è un approccio altamente efficiente per l'addestramento dei modelli visione-linguaggio. Introdotto originariamente dai ricercatori di Google , questo metodo rivoluziona il modo in cui i modelli di IA apprendono la relazione tra le immagini e le relative descrizioni testuali. Sostituendo le tradizionali funzioni di probabilità con un approccio di classificazione binaria più semplice, SigLIP consente agli sviluppatori di addestrare enormi architetture multimodali con un overhead di memoria significativamente inferiore e una maggiore efficienza computazionale.

Comprendere l'architettura

Nelle pipeline standard di apprendimento automatico che abbinano dati visivi e testuali, i modelli si basano solitamente su una visione d'insieme di tutti i dati di un determinato batch per apprendere correttamente. SigLIP elimina questo collo di bottiglia trattando ogni coppia immagine-testo come un problema di classificazione binaria indipendente. Utilizzando una funzione sigmoide standard, il modello si limita semplicemente a prevedere se una determinata immagine e la relativa descrizione testuale corrispondono o meno.

Questo approccio localizzato alla funzione di perdita implica che la memoria richiesta durante l'addestramento del modello cresca in modo lineare anziché quadratico. Di conseguenza, gli ingegneri possono utilizzare batch di dimensioni notevolmente maggiori su configurazioni hardware standard supportate da framework come PyTorch, ottenendo prestazioni migliorate su diversi set di dati senza richiedere aumenti esponenziali delle GPU .

Distinguere SigLIP da CLIP

Quando si analizzano le moderne architetture di IA, è fondamentale distinguere SigLIP dal suo predecessore, CLIP (Contrastive Language-Image Pre-training).

CLIP: Si basa su una funzione di perdita softmax, che richiede al modello di confrontare un'immagine con tutte le descrizioni testuali di un batch contemporaneamente. Ciò crea un grave collo di bottiglia nella memoria durante l' addestramento del deep learning all'aumentare delle dimensioni dei batch.
SigLIP: Utilizza una perdita sigmoide a coppie. Deve solo valutare se una singola coppia immagine-testo è una corrispondenza vera o una corrispondenza falsa, rendendolo altamente scalabile e più facile da distribuire su più dispositivi durante l'ottimizzazione dei flussi di lavoro di intelligenza artificiale.

Applicazioni nel mondo reale

Il design a basso consumo di memoria di SigLIP lo rende una solida base per numerose applicazioni pratiche in tutto il settore tecnologico :

Classificazione di immagini zero-shot: SigLIP eccelle nel classificare le immagini in nuove classi che non ha mai visto esplicitamente durante l'addestramento. Ciò è estremamente utile per i sistemi di classificazione dinamica delle immagini in cui le categorie cambiano frequentemente, eliminando la necessità di un'etichettatura manuale costante dei dati.
Motori di ricerca semantici: Generando embedding multimodali altamente accurati, SigLIP alimenta sistemi di recupero avanzati. Gli utenti possono inserire query testuali complesse per effettuare ricerche con elevata precisione in enormi database di immagini non strutturate.

Quando si gestiscono dati personalizzati per questo tipo di attività complesse di visione artificiale, i team ricorrono spesso alla Ultralytics per ottimizzare l'annotazione dei set di dati nel cloud e integrare senza soluzione di continuità le informazioni ricavate da testi e immagini prima di implementare modelli avanzati come Ultralytics per l'inferenza edge ad alta velocità.

Esempio di implementazione

Per comprendere a fondo come SigLIP calcoli la perdita, è possibile simulare il processo utilizzando operazioni di base PyTorch . Questo frammento di codice mostra come l'approccio sigmoide a coppie sostituisca la tradizionale logica di probabilità multiclasse.

import torch
import torch.nn.functional as F

# Simulate image and text embeddings from a vision-language model
image_embeddings = torch.randn(4, 256)
text_embeddings = torch.randn(4, 256)

# Calculate pairwise similarities (logits)
logits = torch.matmul(image_embeddings, text_embeddings.T)

# SigLIP uses a binary formulation: 1 for positive pairs, -1 for negative pairs
labels = torch.eye(4) * 2 - 1
loss = -F.logsigmoid(labels * logits).mean()

print(f"Calculated SigLIP Loss: {loss.item():.4f}")

Grazie a questo approccio semplificato, la più ampia comunità dell'IA, compresi i ricercatori che pubblicano su riviste di istituzioni come l'IEEE e l'ACM, continua a spingere i confini dell'apprendimento multimodale, definendo nuovi suggerimenti per l'addestramento dei modelli e le migliori pratiche per la prossima generazione di IA visiva.

SigLIP

Esporta in oltre 17 formati. Distribuisci in 43 regioni in tutto il mondo.

Addestra YOLO26 su GPU H100 a 2,39 $ l'ora.

Licenze aziendali flessibili per dare slancio ai tuoi progetti di intelligenza artificiale applicata alla visione.

Licenze aziendali pensate per dare slancio al tuo prossimo progetto

Etichetta fino a 10 volte più velocemente grazie all'annotazione intelligente

Annotare. Addestrare. Distribuire. Tutto in un'unica piattaforma.

Comprendere l'architettura

Distinguere SigLIP da CLIP

Applicazioni nel mondo reale

Esempio di implementazione

Leggi di più in questa categoria

Come esportareYOLO Ultralytics utilizzando Ultralytics

Rilevamento di impilamenti non sicuri di pallet con Ultralytics

Guida all'annotazione dei poligoni con Ultralytics

Costruiamo insieme il futuro dell'intelligenza artificiale!

SigLIP

Esporta in oltre 17 formati. Distribuisci in 43 regioni in tutto il mondo.

Addestra YOLO26 su GPU H100 a 2,39 $ l'ora.

Licenze aziendali flessibili per dare slancio ai tuoi progetti di intelligenza artificiale applicata alla visione.

Licenze aziendali pensate per dare slancio al tuo prossimo progetto

Etichetta fino a 10 volte più velocemente grazie all'annotazione intelligente

Annotare. Addestrare. Distribuire. Tutto in un'unica piattaforma.

Comprendere l'architettura

Distinguere SigLIP da CLIP

Applicazioni nel mondo reale

Esempio di implementazione

Leggi di più in questa categoria

Come esportareYOLO Ultralytics utilizzando Ultralytics

Rilevamento di impilamenti non sicuri di pallet con Ultralytics

Guida all'annotazione dei poligoni con Ultralytics

Costruiamo insieme il futuro dell'intelligenza artificiale!

Annotare. Addestrare. Distribuire. Tutto in un'unica piattaforma.