Conheça o YOLO26: IA de visão de próxima geração.
Ultralytics
Voltar para o Glossário da Ultralytics

SigLIP

Explore o SigLIP, a abordagem de perda sigmoide com eficiência de memória para modelos de linguagem e visão. Aprenda como ele melhora o dimensionamento e o treinamento para projetos Ultralytics YOLO.

SigLIP, que significa Sigmoid Loss for Language Image Pre-Training, é uma abordagem altamente eficiente para treinar modelos de linguagem de visão. Originalmente introduzido por pesquisadores do Google Research, este método altera fundamentalmente a forma como os modelos de IA aprendem a relação entre imagens e suas descrições de texto correspondentes. Ao substituir funções de probabilidade tradicionais por uma abordagem de classificação binária mais simples, o SigLIP permite que desenvolvedores treinem arquiteturas multimodais massivas com significativamente menos sobrecarga de memória e maior eficiência computacional.

Link to this sectionEntendendo a Arquitetura#

Em pipelines padrão de machine learning que combinam dados visuais e textuais, os modelos geralmente dependem de uma visão global de todos os dados em um determinado lote para aprender corretamente. O SigLIP elimina esse gargalo tratando cada par imagem-texto como um problema de classificação binária independente. Usando uma função sigmoid padrão, o modelo simplesmente prevê se uma imagem e uma descrição de texto específicas correspondem ou não.

Essa abordagem localizada para a função de perda significa que a memória necessária durante o treinamento de modelo escala linearmente em vez de quadraticamente. Consequentemente, os engenheiros podem utilizar tamanhos de lote substancialmente maiores em configurações de hardware padrão suportadas por frameworks como PyTorch, levando a um melhor desempenho em diversos datasets sem exigir aumentos exponenciais em recursos de GPU.

Link to this sectionDiferenciando SigLIP do CLIP#

Ao explorar arquiteturas de IA modernas, é essencial diferenciar o SigLIP de seu predecessor, CLIP (Contrastive Language-Image Pre-training).

  • CLIP: Baseia-se em uma função de perda softmax, que exige que o modelo compare uma imagem contra todas as descrições de texto em um lote simultaneamente. Isso cria um gargalo de memória severo durante o treinamento de deep learning à medida que os tamanhos dos lotes aumentam.
  • SigLIP: Utiliza uma perda sigmoid em pares. Ele só precisa avaliar se um único par imagem-texto é uma correspondência verdadeira ou falsa, tornando-o altamente escalável e mais fácil de distribuir em vários dispositivos ao otimizar fluxos de trabalho de artificial intelligence.

Link to this sectionAplicações no Mundo Real#

O design eficiente em memória do SigLIP o torna uma base poderosa para várias aplicações práticas em todo o setor de tecnologia:

  • Zero-Shot Image Classification: O SigLIP se destaca na categorização de imagens em novas classes que ele nunca viu explicitamente durante o treinamento. Isso é incrivelmente útil para sistemas dinâmicos de image classification onde as categorias mudam com frequência, eliminando a necessidade de rotulagem manual constante de dados.
  • Semantic Search Engines: Ao gerar embeddings multimodais altamente precisos, o SigLIP impulsiona sistemas de recuperação avançados. Você pode inserir consultas de texto complexas para pesquisar em bases de dados de imagens massivas e não estruturadas com alta precisão.

Ao gerenciar dados personalizados para esses tipos de tarefas complexas de visão, as equipes frequentemente recorrem à Ultralytics Platform para otimizar a anotação de datasets em nuvem e integrar perfeitamente insights de texto e imagem antes de implantar modelos avançados como o Ultralytics YOLO26 para inferência de borda de alta velocidade.

Link to this sectionExemplo de Implementação#

Para entender como o SigLIP calcula a perda em um nível fundamental, você pode simular o processo usando operações básicas do PyTorch. Este snippet demonstra como a abordagem sigmoid em pares substitui a lógica de probabilidade multiclase tradicional.

import torch
import torch.nn.functional as F

# Simulate image and text embeddings from a vision-language model
image_embeddings = torch.randn(4, 256)
text_embeddings = torch.randn(4, 256)

# Calculate pairwise similarities (logits)
logits = torch.matmul(image_embeddings, text_embeddings.T)

# SigLIP uses a binary formulation: 1 for positive pairs, -1 for negative pairs
labels = torch.eye(4) * 2 - 1
loss = -F.logsigmoid(labels * logits).mean()

print(f"Calculated SigLIP Loss: {loss.item():.4f}")

Ao aproveitar essa abordagem simplificada, a comunidade de IA em geral, incluindo pesquisadores que publicam em instituições como o IEEE e o ACM, continua a expandir os limites do aprendizado multimodal, estabelecendo novas dicas de treinamento de modelos e melhores práticas para a próxima geração de visão computacional com IA.

Explore solutions

Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.

Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.

Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.

Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.

Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.

Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.

Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.

Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.

Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.

Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.

Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.

Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.

Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.

Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.

Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.

Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.

Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.

Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.

Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.

Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.

Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.

Sabe mais

Vamos construir o futuro da IA juntos!

Começa a tua jornada com o futuro da aprendizagem automática