Узнайте, как CLIP от OpenAI революционизирует ИИ с помощью zero-shot learning, выравнивания изображений и текста и реальных приложений в компьютерном зрении.
CLIP (Contrastive Language-Image Pre-training) - это новаторская архитектура мультимодальных моделей, представленная OpenAI, которая преодолевает разрыв между компьютерным зрением и обработкой естественного языка обработки. В отличие от традиционных систем компьютерного зрения, обучающихся на фиксированных наборах предварительно помеченных категорий, CLIP учится ассоциировать изображения с текстовыми описаниями, тренируясь на сотнях миллионов пар "изображение-текст", собранных из интернета. интернета. Такой подход позволяет модели понимать визуальные концепции через призму естественного языка, что дает возможность возможность, известную как обучение с нулевым результатом, когда модель может правильно classify изображения по категориям, которые она никогда явно не видела во время обучения. Благодаря согласованию визуальной и текстовой информации в общем пространстве признаков, CLIP служит универсальной базовой моделью для широкого спектра последующих задач искусственного интеллекта задач.
В основе механизма CLIP лежат два отдельных кодирующих устройства: трансформатор зрения (ViT) или сеть ResNet для обработки для обработки изображений, и текстовый трансформатор для обработки языка. Модель использует контрастное обучение для синхронизации этих двух модальностей. В процессе обучения CLIP получает пакет пар (изображение, текст) и учится предсказывать, какое текстовое описание соответствует тому или иному изображению. соответствует изображению. Он оптимизирует свои параметры, чтобы максимизировать косинусоидальное сходство между вкраплениями правильных пар и минимизировать сходство для неправильных пар.
В результате этого процесса обучения создается общее латентное пространство, в котором семантически схожие изображения и тексты располагаются близко друг к другу. друг к другу. Например, векторное представление изображения "золотистого ретривера" будет очень близко к векторному представлению текстовой строки "фотография золотистого ретривера". Такое выравнивание позволяет разработчикам выполнять классификацию изображений путем просто предоставляя список потенциальных текстовых меток, которые модель сравнивает с входным изображением, чтобы найти наилучшее совпадение.
Гибкость CLIP привела к тому, что его стали использовать во многих отраслях промышленности и сферах применения:
Хотя CLIP изначально был разработан для классификации, его возможности кодирования текста были интегрированы в современные архитектуры обнаружения объектов для обеспечения возможности обнаружения открытых словарей. Модель YOLO позволяет пользователям определять пользовательские классы во время выполнения программы с помощью подсказок на естественном языке, используя лингвистическое понимание CLIP. для идентификации объектов без повторного обучения.
Следующий пример демонстрирует, как использовать модель YOLO с ultralytics пакет для detect
пользовательские объекты, заданные в тексте:
from ultralytics import YOLO
# Load a pre-trained YOLO-World model utilizing CLIP-based text features
model = YOLO("yolov8s-world.pt")
# Define custom classes using natural language prompts
model.set_classes(["person wearing a hat", "red backpack"])
# Run inference on an image to detect the specified objects
results = model.predict("bus_stop.jpg")
# Display the detection results
results[0].show()
Важно отличать CLIP от стандартных моделей с супервизией, таких как ResNet или ранних версий YOLO.
Последние исследования часто сочетают эти подходы. Например, Модели языка зрения (VLM) часто используют CLIP в качестве основы для обеспечения семантической насыщенности, а архитектурные усовершенствования таких моделей, как YOLO26 направлены на повышение скорости и точности этих мультимодальных систем.