Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Обучение Zero-Shot

Откройте для себя Zero-Shot Learning: передовой подход к ИИ, позволяющий моделям классифицировать невидимые данные, революционизируя обнаружение объектов, NLP и многое другое.

Zero-Shot Learning (ZSL) — это захватывающая возможность в машинном обучении (ML), когда модель может распознавать и классифицировать объекты из категорий, которые она никогда не видела во время фазы обучения на данных. В отличие от традиционного обучения с учителем, которое требует явных примеров для каждого возможного класса, ZSL позволяет модели обобщать свои знания на новые, невиданные ранее классы. Это достигается путем связывания наблюдаемых и ненаблюдаемых классов через высокоуровневые семантические описания, такие как атрибуты или текстовые вложения. Это позволяет AI модели быть более гибкой и масштабируемой, особенно в реальных сценариях, где сбор исчерпывающих размеченных данных нецелесообразен.

Как это работает?

Основная идея ZSL (Zero-Shot Learning) заключается в создании общего пространства встраивания, где могут быть представлены как визуальные признаки из изображений, так и семантическая информация из текста. Во время обучения модель учится сопоставлять изображения виденных классов с соответствующими им семантическими векторами (атрибутами или векторными представлениями слов). Например, модель изучает визуальные признаки «лошади» и связывает их с семантическим описанием, таким как «имеет четыре ноги», «является млекопитающим» и «на ней можно ездить».

Когда модели предоставляется изображение невидимого класса, например, "зебры", модель извлекает ее визуальные признаки. Одновременно с этим она использует семантическое описание "зебры" — например, "похожа на лошадь", "имеет полосы" — чтобы найти ее в пространстве встраивания. Находя ближайшее семантическое описание к извлеченным визуальным признакам, модель может правильно классифицировать изображение как "зебру", даже без единого обучающего изображения. Этот процесс часто опирается на мощные предварительно обученные мультимодальные модели, такие как CLIP от OpenAI, которые превосходно связывают зрение и язык.

Zero-Shot Learning в сравнении с другими парадигмами

Важно отличать ZSL от связанных методов обучения:

  • Обучение с небольшим количеством примеров (Few-Shot Learning, FSL): В FSL модель обучается с очень небольшим количеством размеченных примеров (например, от 1 до 5) для каждого нового класса. Это отличается от ZSL, который работает с нулевым количеством примеров целевого класса.
  • One-Shot Learning (OSL): Подтип FSL, где модель получает ровно один пример нового класса. Он более ограничен данными, чем общий FSL, но все же требует хотя бы один образец, в отличие от ZSL.
  • Transfer Learning (перенос обучения): ZSL — это форма transfer learning, но она уникальна. В то время как стандартный transfer learning обычно включает тонкую настройку предварительно обученной модели на новом (меньшем) помеченном наборе данных, ZSL передает знания новым классам, используя только вспомогательную семантическую информацию, обходя необходимость в каких-либо помеченных примерах этих классов.

Применение в реальном мире

ZSL имеет множество практических применений, делая системы компьютерного зрения более динамичными и адаптируемыми.

  1. Обнаружение объектов с открытым словарем: Модели, такие как YOLO-World, используют ZSL для обнаружения любого объекта, описанного текстом. Пользователь может предоставить текстовые подсказки, такие как "человек в синей рубашке" или "протекающая труба", и модель может найти эти объекты на изображении или в видеопотоке без явного обучения на этих конкретных категориях. Это важный шаг на пути к созданию действительно универсальных систем машинного зрения.
  2. Автономная идентификация видов: В ИИ для охраны дикой природы ZSL может идентифицировать редкие или недавно обнаруженные виды. Модель, обученная на распространенных животных, может использовать описательные атрибуты (например, «имеет длинную шею», «пятнистый», «травоядный») из базы знаний, такой как Википедия, для идентификации жирафа, даже если в ее исходном наборе данных не было изображений жирафов.

Проблемы и будущие направления

Несмотря на свой потенциал, ZSL сталкивается с такими проблемами, как проблема концентрации (когда некоторые точки в семантическом пространстве становятся ближайшими соседями слишком многих точек) и сдвиг домена (когда отношения между признаками и атрибутами различаются между видимыми и невидимыми классами). Для решения этих проблем исследователи разрабатывают более надежные методы, такие как Generalized Zero-Shot Learning (GZSL), где модель должна распознавать как видимые, так и невидимые классы во время логического вывода. Эволюция базовых моделей и платформ, таких как Ultralytics HUB, еще больше упростит интеграцию и развертывание ZSL, сделав системы ИИ менее зависимыми от обширной разметки данных и более соответствующими человеческому мышлению.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас
Ссылка скопирована в буфер обмена