Scopri YOLO26: vision AI di prossima generazione.
Ultralytics
Torna al glossario Ultralytics

SigLIP

Esplora SigLIP, l'approccio efficiente alla memoria basato sulla sigmoid loss per i modelli visione-linguaggio. Scopri come migliora il ridimensionamento e l'addestramento per i progetti Ultralytics YOLO.

SigLIP, che sta per Sigmoid Loss for Language Image Pre-Training, è un approccio altamente efficiente per l'addestramento di vision-language models. Introdotto originariamente dai ricercatori di Google Research, questo metodo cambia radicalmente il modo in cui i modelli AI apprendono la relazione tra immagini e le relative descrizioni testuali. Sostituendo le tradizionali funzioni di probabilità con un approccio di classificazione binaria più semplice, SigLIP ti permette di addestrare architetture multimodali massicce con un sovraccarico di memoria significativamente inferiore e una maggiore efficienza computazionale.

Link to this sectionComprendere l'architettura#

Nelle pipeline standard di machine learning che accoppiano dati visivi e testuali, i modelli si basano tipicamente su una vista globale di tutti i dati in un determinato batch per apprendere correttamente. SigLIP elimina questo collo di bottiglia trattando ogni coppia immagine-testo come un problema di classificazione binaria indipendente. Utilizzando una funzione sigmoid standard, il modello prevede semplicemente se una specifica immagine e la relativa descrizione testuale corrispondono o meno.

Questo approccio localizzato alla loss function significa che la memoria richiesta durante il model training scala linearmente anziché quadraticamente. Di conseguenza, puoi utilizzare batch size sostanzialmente più grandi su configurazioni hardware standard supportate da framework come PyTorch, portando a prestazioni migliori su diversi datasets senza richiedere aumenti esponenziali delle risorse GPU.

Link to this sectionDifferenziare SigLIP da CLIP#

Quando esplori moderne architetture AI, è essenziale differenziare SigLIP dal suo predecessore, CLIP (Contrastive Language-Image Pre-training).

  • CLIP: Si basa su una funzione di loss softmax, che richiede al modello di confrontare un'immagine con tutte le descrizioni testuali in un batch simultaneamente. Questo crea un grave collo di bottiglia di memoria durante l'addestramento di deep learning man mano che i batch size aumentano.
  • SigLIP: Utilizza una loss sigmoid a coppie. Deve solo valutare se una singola coppia immagine-testo è una corrispondenza vera o falsa, rendendolo altamente scalabile e più facile da distribuire su più dispositivi quando ottimizzi i flussi di lavoro di artificial intelligence.

Link to this sectionApplicazioni nel mondo reale#

Il design efficiente in termini di memoria di SigLIP lo rende una base potente per varie applicazioni pratiche in tutto il settore tecnologico:

  • Zero-Shot Image Classification: SigLIP eccelle nel categorizzare immagini in nuove classi che non ha mai visto esplicitamente durante l'addestramento. Questo è incredibilmente utile per sistemi dinamici di image classification dove le categorie cambiano frequentemente, eliminando la necessità di un'etichettatura manuale costante dei dati.
  • Semantic Search Engines: Generando embedding multimodali altamente accurati, SigLIP alimenta sistemi di recupero avanzati. Puoi inserire query testuali complesse per cercare attraverso massicci database di immagini non strutturati con alta precisione.

Quando gestisci dati personalizzati per questi tipi di task di visione complessi, spesso ti rivolgi alla Ultralytics Platform per semplificare l'annotazione dei dataset in cloud e integrare senza problemi insight su testo e immagini prima di distribuire modelli avanzati come Ultralytics YOLO26 per l'edge inference ad alta velocità.

Link to this sectionEsempio di Implementazione#

Per comprendere come SigLIP calcola la loss a un livello fondamentale, puoi simulare il processo utilizzando operazioni PyTorch di base. Questo snippet mostra come l'approccio sigmoid a coppie sostituisce la tradizionale logica di probabilità multi-classe.

import torch
import torch.nn.functional as F

# Simulate image and text embeddings from a vision-language model
image_embeddings = torch.randn(4, 256)
text_embeddings = torch.randn(4, 256)

# Calculate pairwise similarities (logits)
logits = torch.matmul(image_embeddings, text_embeddings.T)

# SigLIP uses a binary formulation: 1 for positive pairs, -1 for negative pairs
labels = torch.eye(4) * 2 - 1
loss = -F.logsigmoid(labels * logits).mean()

print(f"Calculated SigLIP Loss: {loss.item():.4f}")

Sfruttando questo approccio snello, la comunità AI più ampia, inclusi i ricercatori che pubblicano presso istituzioni come l'IEEE e l'ACM, continua a spingere i confini dell'apprendimento multimodale, stabilendo nuovi model training tips e best practice per la prossima generazione di visione AI.

Explore solutions

Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.

Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.

Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.

Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.

Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.

Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.

Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.

Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.

Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.

Scopri di più

Costruiamo insieme il futuro dell'AI!

Inizia il tuo viaggio con il futuro del machine learning