Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

CLIP (Contrastive Language-Image Pre-training, предварительное обучение контрастного языка и изображения)

Узнайте, как CLIP от OpenAI революционизирует ИИ с помощью zero-shot learning, выравнивания изображений и текста и реальных приложений в компьютерном зрении.

CLIP (Contrastive Language-Image Pre-training) — это новаторская мультимодальная модель, разработанная OpenAI, которая связывает текст и изображения в общем пространстве понимания. В отличие от традиционных моделей, обученных для одной задачи, такой как классификация изображений, CLIP изучает визуальные концепции непосредственно из описаний на естественном языке. Она обучена на огромном наборе пар изображений и текста из Интернета, что позволяет ей выполнять широкий спектр задач без необходимости специального обучения для каждой из них — эта возможность известна как обучение с нулевым количеством примеров. Такой подход делает ее мощной базовой моделью для нового поколения AI-приложений.

Как это работает

Основная идея CLIP заключается в создании общего пространства встраивания, где как изображения, так и текст могут быть представлены в виде векторов. Он использует два отдельных энкодера: Vision Transformer (ViT) или аналогичную архитектуру для изображений и текстовый Transformer для текста. Во время обучения модели предоставляется пакет пар изображение-текст, и она учится предсказывать, какой текстовый заголовок соответствует какому изображению. Это достигается с помощью контрастного обучения, где цель модели — максимизировать сходство встраиваний для правильных пар и минимизировать его для неправильных пар. Результатом, подробно описанным в оригинальной исследовательской работе, является надежное понимание концепций, связывающее визуальные данные с лингвистическим контекстом. Реализация с открытым исходным кодом, OpenCLIP, обученная на наборах данных, таких как LAION-5B, сделала эту технологию широко доступной.

Применение в реальном мире

Уникальные возможности CLIP позволяют использовать его в нескольких практических целях:

  • Семантический поиск изображений: CLIP поддерживает продвинутые поисковые системы, в которых пользователи могут находить изображения, используя запросы на естественном языке вместо тегов с ключевыми словами. Например, пользователь может искать в каталоге электронной коммерции «синюю полосатую рубашку для мужчин» и получать релевантные результаты, даже если продукты явно не помечены этими точными словами. Ultralytics предлагает решение для семантического поиска изображений, которое использует CLIP и FAISS (Facebook AI Similarity Search) для быстрого и точного поиска в больших библиотеках изображений.
  • Модерация контента: Платформы социальных сетей могут использовать CLIP для автоматической пометки изображений, на которых изображен контент, описанный в их политиках, например, символы ненависти или графическое насилие. Это более гибко, чем традиционные методы, поскольку позволяет выявлять нарушения на основе текстового описания, не требуя предварительно помеченного набора данных для каждого возможного типа запрещенного контента.
  • Guiding Generative AI (управление генеративным ИИ): Кодировщики CLIP имеют решающее значение для управления генеративными моделями ИИ, такими как DALL-E или Stable Diffusion. Когда пользователь предоставляет текстовый запрос, CLIP оценивает сгенерированное изображение, чтобы увидеть, насколько хорошо оно соответствует смыслу запроса, направляя модель на создание более точных и релевантных визуальных эффектов.
  • Улучшение доступности: Модель может автоматически генерировать богатые, описательные подписи для изображений, которые могут использоваться программами чтения с экрана для описания визуального контента пользователям с нарушениями зрения, что значительно улучшает доступность веб-страниц.

CLIP против YOLO

Важно отличать CLIP от специализированных моделей компьютерного зрения (CV), таких как Ultralytics YOLO.

  • CLIP превосходно справляется с семантическим пониманием. Он знает, что изображено на картинке в широком, концептуальном смысле (например, он понимает концепцию «вечеринки по случаю дня рождения»). Его сила заключается в связывании языка с визуальными образами для таких задач, как классификация и поиск, что делает его мощной моделью Vision Language.
  • Модели YOLO превосходно справляются с локализацией. Они предназначены для обнаружения объектов и сегментации, определяя точное местоположение и границы объектов на изображении (например, определение местоположения каждого человека, торта и воздушных шаров на дне рождения).

Несмотря на различие, эти модели дополняют друг друга. Будущее CV может включать объединение семантического контекста из моделей, таких как CLIP, с точностью локализации детекторов, таких как YOLO11, для создания более сложных систем ИИ.

Ограничения и будущие направления

Несмотря на свою мощь, CLIP имеет ограничения. Поскольку он обучен на огромных, некураторских данных из Интернета, он может поглощать и воспроизводить социальные предубеждения, содержащиеся в этих данных, что вызывает опасения по поводу справедливости в ИИ и потенциальной алгоритмической предвзятости. Он также испытывает трудности с определенными задачами, требующими детальной детализации или пространственного мышления, такими как точный подсчет объектов. Текущие исследования, в том числе работа в таких учреждениях, как Центр исследований базовых моделей (CRFM) Стэнфордского университета, сосредоточены на смягчении этих предубеждений и улучшении его возможностей. Интеграцией знаний CLIP в различные рабочие процессы можно управлять с помощью таких платформ, как Ultralytics HUB, которая упрощает управление моделями и наборами данных.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас
Ссылка скопирована в буфер обмена