Откройте для себя Zero-Shot Learning: передовой подход к ИИ, позволяющий моделям классифицировать невидимые данные, революционизируя обнаружение объектов, NLP и многое другое.
Zero-Shot Learning (ZSL) — это захватывающая возможность в машинном обучении (ML), когда модель может распознавать и классифицировать объекты из категорий, которые она никогда не видела во время фазы обучения на данных. В отличие от традиционного обучения с учителем, которое требует явных примеров для каждого возможного класса, ZSL позволяет модели обобщать свои знания на новые, невиданные ранее классы. Это достигается путем связывания наблюдаемых и ненаблюдаемых классов через высокоуровневые семантические описания, такие как атрибуты или текстовые вложения. Это позволяет AI модели быть более гибкой и масштабируемой, особенно в реальных сценариях, где сбор исчерпывающих размеченных данных нецелесообразен.
Основная идея ZSL (Zero-Shot Learning) заключается в создании общего пространства встраивания, где могут быть представлены как визуальные признаки из изображений, так и семантическая информация из текста. Во время обучения модель учится сопоставлять изображения виденных классов с соответствующими им семантическими векторами (атрибутами или векторными представлениями слов). Например, модель изучает визуальные признаки «лошади» и связывает их с семантическим описанием, таким как «имеет четыре ноги», «является млекопитающим» и «на ней можно ездить».
Когда модели предоставляется изображение невидимого класса, например, "зебры", модель извлекает ее визуальные признаки. Одновременно с этим она использует семантическое описание "зебры" — например, "похожа на лошадь", "имеет полосы" — чтобы найти ее в пространстве встраивания. Находя ближайшее семантическое описание к извлеченным визуальным признакам, модель может правильно классифицировать изображение как "зебру", даже без единого обучающего изображения. Этот процесс часто опирается на мощные предварительно обученные мультимодальные модели, такие как CLIP от OpenAI, которые превосходно связывают зрение и язык.
Важно отличать ZSL от связанных методов обучения:
ZSL имеет множество практических применений, делая системы компьютерного зрения более динамичными и адаптируемыми.
Несмотря на свой потенциал, ZSL сталкивается с такими проблемами, как проблема концентрации (когда некоторые точки в семантическом пространстве становятся ближайшими соседями слишком многих точек) и сдвиг домена (когда отношения между признаками и атрибутами различаются между видимыми и невидимыми классами). Для решения этих проблем исследователи разрабатывают более надежные методы, такие как Generalized Zero-Shot Learning (GZSL), где модель должна распознавать как видимые, так и невидимые классы во время логического вывода. Эволюция базовых моделей и платформ, таких как Ultralytics HUB, еще больше упростит интеграцию и развертывание ZSL, сделав системы ИИ менее зависимыми от обширной разметки данных и более соответствующими человеческому мышлению.