Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Обучение Zero-Shot

Откройте для себя Zero-Shot Learning: передовой подход к ИИ, позволяющий моделям classify невидимые данные, революционизирующий обнаружение объектов, NLP и многое другое.

Zero-Shot Learning (ZSL) - это мощная парадигма в машинном обучении (ML), которая позволяет моделям искусственного интеллекта распознавать модели искусственного интеллекта распознавать, classify или detect объекты, с которыми они никогда не сталкивались во время этапе обучения. В традиционном контролируемом обучении модель должна быть обучена на тысячи помеченных изображений для каждой конкретной категории, которую необходимо идентифицировать. ZSL устраняет это ограничение, используя используя вспомогательную информацию - как правило, текстовые описания, атрибуты или семантические вкраплений, чтобыпреодолеть разрыв между видимыми и невидимыми классами. Эта возможность позволяет системам искусственного интеллекта (ИИ) быть значительно более гибкими, масштабируемыми и способными работать с динамическими средами, где сбор исчерпывающих исчерпывающие данные о каждом возможном объекте нецелесообразно.

Как работает обучение с нуля

Основной механизм ZSL заключается в переносе знаний от знакомых понятий к незнакомым, используя общее семантического пространства. Вместо того чтобы учиться распознавать "кошку" только путем запоминания пиксельных паттернов, модель изучает взаимосвязь между визуальными признаками и семантическими атрибутами (например, "пушистый", "усы", "четыре"). "усы", "четыре лапы"), полученными из обработки естественного языка (NLP).

Этот процесс часто опирается на мультимодальные модели, которые согласовывают изображения и текст изображения и текст. Например, такие фундаментальные исследования, как CLIP от OpenAI демонстрирует, как модели могут изучать визуальные концепции на основе естественного языка. Когда модель ZSL сталкивается с невидимым объектом, например редким видом птицы, она извлекает визуальные признаки и сравнивает их со словарем семантических векторов. Если визуальные признаки совпадают с семантическим описанием нового класса, модель может правильно его classify , эффективно выполняя "нулевое" предсказание.

Отличие от смежных понятий

Чтобы полностью понять ZSL, полезно отличить ее от аналогичных стратегий обучения, используемых в компьютерном зрении (КЗ):

  • Few-Shot Learning (FSL): В то время как ZSL не требует примеров целевого класса, FSL предоставляет модели очень небольшой набор поддержки (обычно от 1 до 5 примеров) для адаптации. ZSL является более сложной задачей, поскольку она полностью полагается на семантические выводы, а не на а не на визуальные примеры.
  • Одноразовое обучение: Подмножество FSL, в котором модель обучается на одном помеченном примере. ZSL принципиально отличается тем, что работает без ни одного изображения новой категории.
  • Трансферное обучение: Этот широкий термин Этот термин относится к переносу знаний с одной задачи на другую. ZSL - это особый тип трансферного обучения, который использует семантические атрибуты для переноса знаний в невидимые классы без необходимости традиционной тонкой настройки на новых данных.

Применение в реальном мире

Zero-Shot Learning стимулирует инновации в различных отраслях промышленности, позволяя системам обобщать знания, выходящие за рамки их первоначального обучения. первоначального обучения.

  1. Обнаружение объектов в открытом словаре: Современные архитектуры, такие как YOLO, используют ZSL для detect объектов на основе заданных пользователем текстовых подсказок. Это позволяет обнаруживать объекты в сценариях, где невозможно заранее определить фиксированный список классов заранее невозможно, например при поиске конкретных объектов в огромных видеоархивах. Исследователи из Google Research и других институтов активно активно совершенствуют эти возможности открытого словаря.
  2. Медицинская диагностика: В ИИ в здравоохранении, получение меченых данных для редких заболеваний сложно и дорого. Модели ZSL могут быть обучены на распространенных заболеваниях и описаниях редких симптомов из медицинских учебников (например, статей в PubMed ), что позволяет системе Система может отмечать потенциальные редкие аномалии на рентгеновских снимках или снимках МРТ, не нуждаясь в огромном наборе положительных данных. случаи.
  3. Охрана дикой природы: Для ИИ в области сельского хозяйства и экологии, выявление вымирающих видов, которые редко удается сфотографировать, имеет решающее значение. ZSL позволяет специалистам по охране природы detect таких животных используя описания, основанные на атрибутах (например, специфические узоры меха или форма рогов), определенные в биологических базах данных, таких как Энциклопедия жизни.

Обнаружение нулевого выстрела с помощью Ultralytics

Модель YOLO от Ultralytics является примером Zero-Shot обучения в действии. Она позволяет пользователям динамически определять пользовательские классы во время выполнения программы, не переобучая модель. Этот достигается за счет подключения YOLO11 с кодировщиком текста на основе CLIP.

Следующий пример на Python демонстрирует, как использовать YOLO для detect объектов, которые не входят в стандартный набор данных Python . COCO , таких как определенные цвета одежды, используя ultralytics пакет.

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes for Zero-Shot detection using text prompts
# The model will now look for these specific descriptions
model.set_classes(["blue backpack", "red apple", "person wearing sunglasses"])

# Run inference on an image to detect the new zero-shot classes
results = model.predict("path/to/image.jpg")

# Show the results
results[0].show()

Проблемы и перспективы

Хотя ZSL обладает огромным потенциалом, она сталкивается с такими проблемами, как проблема смещения домена, когда семантические атрибуты, полученные в процессе обучения, не идеально соответствуют визуальному виду невидимых классов. Кроме того, модели ZSL могут страдать от предвзятости, когда точность предсказания значительно выше для (Generalized Zero-Shot Learning).

Исследования таких организаций, как Лаборатория искусственного интеллекта Стэнфордского университета и IEEE Computer Society продолжают устранять эти ограничения. По мере того как модели фундамента становятся все более надежными, ZSL ожидается, что ZSL станет стандартной функцией в в инструментах компьютерного зрения, уменьшая зависимость от массовых от огромных усилий по маркировке данных и демократизации доступа к передовым возможностям ИИ.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас