Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
Volver al glosario de Ultralytics

SigLIP

Explora SigLIP, el enfoque de pérdida sigmoide eficiente en memoria para modelos de visión-lenguaje. Aprende cómo mejora el escalado y el entrenamiento para proyectos de Ultralytics YOLO.

SigLIP, que significa Sigmoid Loss for Language Image Pre-Training (pérdida sigmoide para preentrenamiento de lenguaje e imagen), es un enfoque altamente eficiente para entrenar vision-language models. Presentado originalmente por investigadores de Google Research, este método cambia fundamentalmente la forma en que los modelos de AI aprenden la relación entre imágenes y sus correspondientes descripciones de texto. Al reemplazar las funciones de probabilidad tradicionales con un enfoque de clasificación binaria más sencillo, SigLIP permite a los desarrolladores entrenar arquitecturas multimodales masivas con mucha menos sobrecarga de memoria y mayor eficiencia computacional.

Link to this sectionEntendiendo la arquitectura#

En los pipelines de machine learning estándar que emparejan datos visuales y textuales, los modelos suelen depender de una visión global de todos los datos en un batch determinado para aprender correctamente. SigLIP elimina este cuello de botella tratando cada par de imagen-texto como un problema de clasificación binaria independiente. Usando una función sigmoid estándar, el modelo simplemente predice si una imagen específica y una descripción de texto coinciden o no.

Este enfoque localizado de la loss function significa que la memoria requerida durante el model training escala de forma lineal en lugar de cuadrática. En consecuencia, los ingenieros pueden utilizar batch sizes sustancialmente mayores en configuraciones de hardware estándar compatibles con frameworks como PyTorch, lo que mejora el rendimiento en diversos datasets sin necesidad de incrementos exponenciales en los recursos de GPU.

Link to this sectionDiferenciación de SigLIP respecto a CLIP#

Al explorar las arquitecturas modernas de AI, es esencial diferenciar SigLIP de su predecesor, CLIP (Contrastive Language-Image Pre-training).

  • CLIP: Se basa en una función de pérdida softmax, que requiere que el modelo compare una imagen contra todas las descripciones de texto en un batch simultáneamente. Esto crea un severo cuello de botella de memoria durante el entrenamiento de deep learning a medida que aumentan los batch sizes.
  • SigLIP: Utiliza una pérdida sigmoide por pares. Solo necesita evaluar si un único par imagen-texto es una coincidencia real o falsa, lo que lo hace altamente escalable y más fácil de distribuir entre múltiples dispositivos al optimizar los flujos de trabajo de artificial intelligence.

Link to this sectionAplicaciones en el mundo real#

El diseño de SigLIP, eficiente en memoria, lo convierte en una base potente para diversas aplicaciones prácticas en toda la industria tecnológica:

  • Zero-Shot Image Classification: SigLIP destaca en la categorización de imágenes en nuevas clases que nunca ha visto explícitamente durante el entrenamiento. Esto es increíblemente útil para sistemas dinámicos de image classification donde las categorías cambian con frecuencia, eliminando la necesidad de un etiquetado de datos manual constante.
  • Semantic Search Engines: Al generar embeddings multimodales de gran precisión, SigLIP potencia sistemas de recuperación avanzados. Los usuarios pueden introducir consultas de texto complejas para buscar a través de bases de datos de imágenes masivas y no estructuradas con alta precisión.

Al gestionar datos personalizados para estos tipos de tareas de visión complejas, los equipos suelen recurrir a la Ultralytics Platform para agilizar la anotación de datasets en la nube e integrar a la perfección conocimientos de texto e imagen antes de implementar modelos avanzados como Ultralytics YOLO26 para inferencia de alta velocidad en el borde.

Link to this sectionEjemplo de implementación#

Para comprender cómo SigLIP calcula la pérdida a un nivel fundamental, puedes simular el proceso utilizando operaciones básicas de PyTorch. Este fragmento demuestra cómo el enfoque sigmoide por pares reemplaza la lógica de probabilidad multiclase tradicional.

import torch
import torch.nn.functional as F

# Simulate image and text embeddings from a vision-language model
image_embeddings = torch.randn(4, 256)
text_embeddings = torch.randn(4, 256)

# Calculate pairwise similarities (logits)
logits = torch.matmul(image_embeddings, text_embeddings.T)

# SigLIP uses a binary formulation: 1 for positive pairs, -1 for negative pairs
labels = torch.eye(4) * 2 - 1
loss = -F.logsigmoid(labels * logits).mean()

print(f"Calculated SigLIP Loss: {loss.item():.4f}")

Al aprovechar este enfoque optimizado, la comunidad de AI en general, incluidos los investigadores que publican en instituciones como el IEEE y la ACM, sigue ampliando los límites del aprendizaje multimodal, estableciendo nuevos model training tips y mejores prácticas para la próxima generación de visión por computadora mediante AI.

Explore solutions

Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático