Встречай YOLO26: ИИ компьютерного зрения нового поколения.
Ultralytics
Назад к глоссарию Ultralytics

SigLIP

Изучи SigLIP, эффективный с точки зрения памяти метод сигмоидальной функции потерь для моделей зрения-языка. Узнай, как это улучшает масштабирование и обучение для проектов Ultralytics YOLO.

SigLIP, что расшифровывается как Sigmoid Loss for Language Image Pre-Training (сигмоидальная функция потерь для предварительного обучения языковых моделей по изображениям), — это высокоэффективный подход к обучению vision-language models. Этот метод, впервые представленный исследователями из Google Research, коренным образом меняет то, как модели ИИ изучают взаимосвязь между изображениями и соответствующими им текстовыми описаниями. Заменяя традиционные функции вероятности более простым подходом бинарной классификации, SigLIP позволяет тебе обучать огромные мультимодальные архитектуры со значительно меньшими затратами памяти и более высокой вычислительной эффективностью.

Link to this sectionПонимание архитектуры#

В стандартных конвейерах machine learning, объединяющих визуальные и текстовые данные, модели обычно полагаются на глобальное представление всех данных в заданном пакете для правильного обучения. SigLIP устраняет это узкое место, рассматривая каждую пару «изображение-текст» как независимую задачу бинарной классификации. Используя стандартную функцию sigmoid, модель просто предсказывает, соответствует ли конкретное изображение текстовому описанию или нет.

Такой локализованный подход к loss function означает, что объем памяти, требуемый во время model training, масштабируется линейно, а не квадратично. В результате инженеры могут использовать значительно большие размеры пакетов (batch sizes) на стандартных конфигурациях оборудования, поддерживаемых такими фреймворками, как PyTorch, что ведет к улучшению производительности на различных datasets без необходимости экспоненциального увеличения ресурсов GPU.

Link to this sectionОтличие SigLIP от CLIP#

При изучении современных архитектур ИИ важно отличать SigLIP от его предшественника, CLIP (Contrastive Language-Image Pre-training).

  • CLIP: полагается на функцию потерь softmax, которая требует, чтобы модель сравнивала изображение со всеми текстовыми описаниями в пакете одновременно. Это создает серьезное узкое место по памяти во время обучения deep learning по мере увеличения размеров пакетов.
  • SigLIP: использует парную сигмоидальную функцию потерь. Ему нужно оценивать только то, является ли отдельная пара «изображение-текст» истинным или ложным соответствием, что делает его легко масштабируемым и упрощает распределение между несколькими устройствами при оптимизации рабочих процессов artificial intelligence.

Link to this sectionРеальные приложения#

Эффективный дизайн SigLIP с точки зрения памяти делает его мощной основой для различных практических приложений в индустрии технологий:

  • Zero-Shot Image Classification: SigLIP отлично справляется с классификацией изображений по новым классам, которые он никогда не видел во время обучения. Это невероятно полезно для динамических систем image classification, где категории часто меняются, что избавляет тебя от необходимости постоянной ручной разметки данных.
  • Semantic Search Engines: Создавая высокоточные мультимодальные эмбеддинги, SigLIP обеспечивает работу продвинутых систем поиска. Ты можешь вводить сложные текстовые запросы для поиска по огромным неструктурированным базам данных изображений с высокой точностью.

При работе с пользовательскими данными для таких сложных задач компьютерного зрения команды часто обращаются к Ultralytics Platform, чтобы оптимизировать аннотирование наборов данных в облаке и беспрепятственно интегрировать текстовые и визуальные данные перед развертыванием передовых моделей, таких как Ultralytics YOLO26, для высокоскоростного граничного вывода (edge inference).

Link to this sectionПример реализации#

Чтобы понять, как SigLIP вычисляет потери на фундаментальном уровне, ты можешь симулировать этот процесс, используя базовые операции PyTorch. Этот фрагмент кода демонстрирует, как парный сигмоидальный подход заменяет традиционную логику многоклассовой вероятности.

import torch
import torch.nn.functional as F

# Simulate image and text embeddings from a vision-language model
image_embeddings = torch.randn(4, 256)
text_embeddings = torch.randn(4, 256)

# Calculate pairwise similarities (logits)
logits = torch.matmul(image_embeddings, text_embeddings.T)

# SigLIP uses a binary formulation: 1 for positive pairs, -1 for negative pairs
labels = torch.eye(4) * 2 - 1
loss = -F.logsigmoid(labels * logits).mean()

print(f"Calculated SigLIP Loss: {loss.item():.4f}")

Используя этот оптимизированный подход, широкое сообщество ИИ, включая исследователей, публикующихся в институтах вроде IEEE и ACM, продолжает расширять границы мультимодального обучения, создавая новые model training tips и лучшие практики для следующего поколения ИИ в области компьютерного зрения.

Explore solutions

Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше

Давай строить будущее ИИ вместе!

Начни свой путь в будущее машинного обучения