Откройте для себя Zero-Shot Learning: передовой подход к ИИ, позволяющий моделям classify невидимые данные, революционизирующий обнаружение объектов, NLP и многое другое.
Zero-Shot Learning (ZSL) - это мощная парадигма в машинном обучении (ML), которая позволяет моделям искусственного интеллекта распознавать модели искусственного интеллекта распознавать, classify или detect объекты, с которыми они никогда не сталкивались во время этапе обучения. В традиционном контролируемом обучении модель должна быть обучена на тысячи помеченных изображений для каждой конкретной категории, которую необходимо идентифицировать. ZSL устраняет это ограничение, используя используя вспомогательную информацию - как правило, текстовые описания, атрибуты или семантические вкраплений, чтобыпреодолеть разрыв между видимыми и невидимыми классами. Эта возможность позволяет системам искусственного интеллекта (ИИ) быть значительно более гибкими, масштабируемыми и способными работать с динамическими средами, где сбор исчерпывающих исчерпывающие данные о каждом возможном объекте нецелесообразно.
Основной механизм ZSL заключается в переносе знаний от знакомых понятий к незнакомым, используя общее семантического пространства. Вместо того чтобы учиться распознавать "кошку" только путем запоминания пиксельных паттернов, модель изучает взаимосвязь между визуальными признаками и семантическими атрибутами (например, "пушистый", "усы", "четыре"). "усы", "четыре лапы"), полученными из обработки естественного языка (NLP).
Этот процесс часто опирается на мультимодальные модели, которые согласовывают изображения и текст изображения и текст. Например, такие фундаментальные исследования, как CLIP от OpenAI демонстрирует, как модели могут изучать визуальные концепции на основе естественного языка. Когда модель ZSL сталкивается с невидимым объектом, например редким видом птицы, она извлекает визуальные признаки и сравнивает их со словарем семантических векторов. Если визуальные признаки совпадают с семантическим описанием нового класса, модель может правильно его classify , эффективно выполняя "нулевое" предсказание.
Чтобы полностью понять ZSL, полезно отличить ее от аналогичных стратегий обучения, используемых в компьютерном зрении (КЗ):
Zero-Shot Learning стимулирует инновации в различных отраслях промышленности, позволяя системам обобщать знания, выходящие за рамки их первоначального обучения. первоначального обучения.
Модель YOLO от Ultralytics является примером Zero-Shot обучения в действии. Она позволяет пользователям динамически определять пользовательские классы во время выполнения программы, не переобучая модель. Этот достигается за счет подключения YOLO11 с кодировщиком текста на основе CLIP.
Следующий пример на Python демонстрирует, как использовать YOLO для detect объектов, которые не входят в стандартный набор данных Python .
COCO , таких как определенные цвета одежды, используя ultralytics пакет.
from ultralytics import YOLOWorld
# Load a pre-trained YOLO-World model
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes for Zero-Shot detection using text prompts
# The model will now look for these specific descriptions
model.set_classes(["blue backpack", "red apple", "person wearing sunglasses"])
# Run inference on an image to detect the new zero-shot classes
results = model.predict("path/to/image.jpg")
# Show the results
results[0].show()
Хотя ZSL обладает огромным потенциалом, она сталкивается с такими проблемами, как проблема смещения домена, когда семантические атрибуты, полученные в процессе обучения, не идеально соответствуют визуальному виду невидимых классов. Кроме того, модели ZSL могут страдать от предвзятости, когда точность предсказания значительно выше для (Generalized Zero-Shot Learning).
Исследования таких организаций, как Лаборатория искусственного интеллекта Стэнфордского университета и IEEE Computer Society продолжают устранять эти ограничения. По мере того как модели фундамента становятся все более надежными, ZSL ожидается, что ZSL станет стандартной функцией в в инструментах компьютерного зрения, уменьшая зависимость от массовых от огромных усилий по маркировке данных и демократизации доступа к передовым возможностям ИИ.