Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

CLIP (Contrastive Language-Image Pre-training, предварительное обучение контрастного языка и изображения)

Узнайте, как CLIP от OpenAI революционизирует ИИ с помощью zero-shot learning, выравнивания изображений и текста и реальных приложений в компьютерном зрении.

CLIP (Contrastive Language-Image Pre-training) - это новаторская архитектура мультимодальных моделей, представленная OpenAI, которая преодолевает разрыв между компьютерным зрением и обработкой естественного языка обработки. В отличие от традиционных систем компьютерного зрения, обучающихся на фиксированных наборах предварительно помеченных категорий, CLIP учится ассоциировать изображения с текстовыми описаниями, тренируясь на сотнях миллионов пар "изображение-текст", собранных из интернета. интернета. Такой подход позволяет модели понимать визуальные концепции через призму естественного языка, что дает возможность возможность, известную как обучение с нулевым результатом, когда модель может правильно classify изображения по категориям, которые она никогда явно не видела во время обучения. Благодаря согласованию визуальной и текстовой информации в общем пространстве признаков, CLIP служит универсальной базовой моделью для широкого спектра последующих задач искусственного интеллекта задач.

Как работает CLIP

В основе механизма CLIP лежат два отдельных кодирующих устройства: трансформатор зрения (ViT) или сеть ResNet для обработки для обработки изображений, и текстовый трансформатор для обработки языка. Модель использует контрастное обучение для синхронизации этих двух модальностей. В процессе обучения CLIP получает пакет пар (изображение, текст) и учится предсказывать, какое текстовое описание соответствует тому или иному изображению. соответствует изображению. Он оптимизирует свои параметры, чтобы максимизировать косинусоидальное сходство между вкраплениями правильных пар и минимизировать сходство для неправильных пар.

В результате этого процесса обучения создается общее латентное пространство, в котором семантически схожие изображения и тексты располагаются близко друг к другу. друг к другу. Например, векторное представление изображения "золотистого ретривера" будет очень близко к векторному представлению текстовой строки "фотография золотистого ретривера". Такое выравнивание позволяет разработчикам выполнять классификацию изображений путем просто предоставляя список потенциальных текстовых меток, которые модель сравнивает с входным изображением, чтобы найти наилучшее совпадение.

Применение в реальном мире

Гибкость CLIP привела к тому, что его стали использовать во многих отраслях промышленности и сферах применения:

  • Семантический поиск изображений: Традиционный поиск опирается на метаданные или теги, но CLIP обеспечивает семантический поиск, при котором пользователи могут запрашивать изображения базы данных, используя описания на естественном языке. Например, поиск по запросу "многолюдный пляж на закате" позволяет находить релевантные изображения на основе визуального контента, а не ключевых слов. ИИ в розничной торговле и управлении цифровыми активами.
  • Руководство генеративными моделями: CLIP играет важную роль в оценке и руководстве генераторов текста в изображение. Оценивая, насколько хорошо сгенерированное изображение соответствует подсказке пользователя, он выступает в качестве управляемой метрики для таких моделей, как Stable Diffusion и VQGAN, обеспечивая соответствие визуального результата текстовому намерениям.
  • Модерация контента: Платформы используют CLIP для фильтрации неприемлемого контента, сравнивая изображения с текстовыми описаниями запрещенных категорий. Эта автоматизированная эта автоматизированная мера защиты данных более эффективна, чем ручная проверка.

CLIP в обнаружении объектов

Хотя CLIP изначально был разработан для классификации, его возможности кодирования текста были интегрированы в современные архитектуры обнаружения объектов для обеспечения возможности обнаружения открытых словарей. Модель YOLO позволяет пользователям определять пользовательские классы во время выполнения программы с помощью подсказок на естественном языке, используя лингвистическое понимание CLIP. для идентификации объектов без повторного обучения.

Следующий пример демонстрирует, как использовать модель YOLO с ultralytics пакет для detect пользовательские объекты, заданные в тексте:

from ultralytics import YOLO

# Load a pre-trained YOLO-World model utilizing CLIP-based text features
model = YOLO("yolov8s-world.pt")

# Define custom classes using natural language prompts
model.set_classes(["person wearing a hat", "red backpack"])

# Run inference on an image to detect the specified objects
results = model.predict("bus_stop.jpg")

# Display the detection results
results[0].show()

CLIP в сравнении с традиционными моделями зрения

Важно отличать CLIP от стандартных моделей с супервизией, таких как ResNet или ранних версий YOLO.

  • Традиционные модели обычно обучаются на закрытых наборах данных, таких как ImageNet с фиксированным числом классов (например, 1 000 категорий). Если возникает необходимость в новой категории, модель требует тонкой настройки с использованием новых помеченных данных.
  • CLIP - это обучаемый с открытым словарным запасом. Он может обобщать любые понятия, которые могут быть описаны в тексте. В то время как специализированные модели, такие как YOLO11 обеспечивают превосходную скорость и точность локализации для конкретных задач, CLIP предлагает непревзойденную универсальность для обобщенного понимания.

Последние исследования часто сочетают эти подходы. Например, Модели языка зрения (VLM) часто используют CLIP в качестве основы для обеспечения семантической насыщенности, а архитектурные усовершенствования таких моделей, как YOLO26 направлены на повышение скорости и точности этих мультимодальных систем.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас