Встречай YOLO26: ИИ компьютерного зрения нового поколения.
Ultralytics
Назад к глоссарию Ultralytics

CLIP (Contrastive Language-Image Pre-training)

Исследуй CLIP (контрастивное языково-изобразительное предварительное обучение), чтобы объединить зрение и язык. Узнай, как это позволяет использовать обучение с нулевым снимком (zero-shot) и расширяет возможности Ultralytics YOLO26.

CLIP (Contrastive Language-Image Pre-training) — это революционная архитектура нейронной сети, разработанная OpenAI, которая преодолевает разрыв между визуальными данными и естественным языком. В отличие от традиционных систем компьютерного зрения (CV), требующих трудоемкой разметки данных для фиксированного набора категорий, CLIP учится понимать изображения, обучаясь на миллионах пар «изображение-текст», собранных из интернета. Этот подход позволяет модели выполнять zero-shot обучение, а значит, она может идентифицировать объекты, концепции или стили, которые явно не видела во время обучения, просто читая текстовое описание. Сопоставляя визуальную и лингвистическую информацию в общем пространстве признаков, CLIP служит мощной базовой моделью для широкого спектра прикладных задач без необходимости в обширной специализированной тонкой настройке.

Link to this sectionКак работает эта архитектура#

Основной механизм CLIP включает два параллельных энкодера: энкодер изображений, обычно основанный на Vision Transformer (ViT) или ResNet, и текстовый Transformer, аналогичный тем, что используются в современных больших языковых моделях (LLM). С помощью процесса, известного как контрастивное обучение, система обучается предсказывать, какой фрагмент текста соответствует какому изображению внутри пакета данных.

Во время обучения модель оптимизирует свои параметры, чтобы сблизить векторные эмбеддинги совпадающих пар «изображение-текст» и раздвинуть несовпадающие пары. Это создает мультимодальное латентное пространство, где математическое представление изображения «золотистого ретривера» пространственно располагается рядом с текстовым эмбеддингом для «фотографии собаки». Вычисляя косинусное сходство между этими векторами, модель может количественно оценить, насколько хорошо изображение соответствует запросу на естественном языке, что позволяет осуществлять гибкую классификацию изображений и поиск.

Link to this sectionРеальные приложения#

Способность связывать зрение и язык сделала CLIP краеугольной технологией в современных ИИ-приложениях:

  • Интеллектуальный семантический поиск: CLIP позволяет пользователям выполнять поиск по большим базам данных изображений, используя сложные запросы на обработке естественного языка (NLP). Например, в ИИ в ритейле покупатель может выполнить поиск по запросу «винтажное цветочное летнее платье» и получить визуально точные результаты, даже если у этих изображений нет конкретных метатегов. Это часто обеспечивается высокопроизводительными векторными базами данных.
  • Управление генеративным ИИ: Модели, такие как Stable Diffusion, полагаются на CLIP для интерпретации пользовательских запросов и управления процессом генерации. CLIP выступает в роли оценщика, определяя, насколько хорошо сгенерированный визуальный результат соответствует текстовому описанию, что критически важно для высококачественного преобразования текста в изображение.
  • Обнаружение объектов с открытым словарем: Передовые архитектуры, такие как YOLO-World, интегрируют эмбеддинги CLIP для обнаружения объектов на основе произвольных текстовых запросов. Это позволяет выполнять динамическое обнаружение в таких областях, как ИИ в здравоохранении, где необходимо идентифицировать новое оборудование или аномалии без переобучения модели.

Link to this sectionИспользование функций CLIP с Ultralytics#

Хотя стандартные детекторы объектов ограничены своими обучающими классами, использование признаков на основе CLIP позволяет выполнять обнаружение с открытым словарем. Следующий код Python демонстрирует, как использовать пакет ultralytics для обнаружения объектов с помощью пользовательских текстовых запросов:

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model utilizing CLIP features
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language text prompts
model.set_classes(["person wearing sunglasses", "red backpack"])

# Run inference on an image to detect the text-defined objects
results = model.predict("travelers.jpg")

# Display the results
results[0].show()

Link to this sectionРазграничение похожих концепций#

Полезно отличать CLIP от других распространенных ИИ-парадигм, чтобы понять его специфическую пользу:

  • CLIP vs. обучение с учителем: Традиционные модели с учителем требуют строгих определений и размеченных примеров для каждой категории (например, «кот», «автомобиль»). CLIP обучается на необработанных парах «текст-изображение», найденных в сети, предлагая большую гибкость и устраняя «узкое место» ручной аннотации, часто управляемой через такие инструменты, как Ultralytics Platform.
  • CLIP vs. YOLO26: В то время как CLIP обеспечивает обобщенное понимание концепций, YOLO26 является специализированным детектором объектов реального времени, оптимизированным для скорости и точной локализации. CLIP часто используется как экстрактор признаков или zero-shot классификатор, тогда как YOLO26 — это движок для высокоскоростного инференса в реальном времени в производственных средах.
  • CLIP vs. Стандартное контрастивное обучение: Методы, такие как SimCLR, обычно сравнивают два дополненных представления одного и того же изображения для изучения признаков. CLIP сопоставляет изображение с текстовым описанием, объединяя две различные модальности данных, а не только одну.

Explore solutions

Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше

Давай строить будущее ИИ вместе!

Начни свой путь в будущее машинного обучения