Yolo 深圳
深セン
今すぐ参加
用語集

ゼロショット学習

ゼロショット学習:未知のデータをclassify するモデルを可能にし、物体検出やNLPなどに革命をもたらす最先端のAIアプローチをご覧ください。

Zero-Shot Learning (ZSL) is a machine learning paradigm that enables artificial intelligence models to recognize, classify, or detect objects they have never encountered during their training phase. In traditional supervised learning, a model requires thousands of labeled examples for every specific category it needs to identify. ZSL eliminates this strict dependency by leveraging auxiliary information—typically text descriptions, semantic attributes, or embeddings—to bridge the gap between seen and unseen classes. This capability allows artificial intelligence (AI) systems to be significantly more flexible, scalable, and capable of handling dynamic environments where collecting exhaustive data for every possible object is impractical.

ゼロ・ショット・ラーニングの仕組み

The core mechanism of ZSL involves transferring knowledge from familiar concepts to unfamiliar ones using a shared semantic space. Instead of learning to recognize a "zebra" solely by memorizing pixel patterns of black and white stripes, the model learns the relationship between visual features and semantic attributes (e.g., "horse-like shape," "striped pattern," "four legs") derived from natural language processing (NLP).

This process often relies on multi-modal models that align image and text representations. For instance, foundational research like OpenAI's CLIP demonstrates how models can learn visual concepts from natural language supervision. When a ZSL model encounters an unseen object, it extracts the visual features and compares them against a dictionary of semantic vectors. If the visual features align with the semantic description of the new class, the model can correctly classify it, effectively performing a "zero-shot" prediction. This approach is fundamental to modern foundation models which generalize across vast arrays of tasks.

実際のアプリケーション

ゼロショット学習は、システムが初期の訓練データを超えて一般化することを可能にすることで、様々な産業における革新を推進している。

  1. Open-Vocabulary Object Detection: Modern architectures like YOLO-World utilize ZSL to detect objects based on user-defined text prompts. This allows for object detection in scenarios where defining a fixed list of classes beforehand is impossible, such as searching for specific items in vast video archives. Researchers at Google Research continue to push the boundaries of these open-vocabulary capabilities.
  2. Medical Diagnostics: In AI in healthcare, obtaining labeled data for rare diseases is often difficult and expensive. ZSL models can be trained on common conditions and descriptions of rare symptoms from medical literature found in databases like PubMed, enabling the system to flag potential rare anomalies in medical imaging without requiring a massive dataset of positive cases.
  3. Wildlife Conservation: For AI in agriculture and ecology, identifying endangered species that are rarely photographed is critical. ZSL allows conservationists to detect these animals using attribute-based descriptions defined in biological databases like the Encyclopedia of Life.

Ultralyticsゼロショット検出

Ultralytics YOLOモデルは、ゼロショット学習の実践例である。 このモデルは、再学習を必要とせずに実行時に動的にカスタムクラスを定義することを可能にする。 これは、堅牢な検出バックボーンと自然言語を理解するテキストエンコーダーを接続することで実現されている。

The following Python example demonstrates how to use YOLO-World to detect objects that were not explicitly part of a standard training set using the ultralytics パッケージで提供される。

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model capable of Zero-Shot Learning
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes via text prompts (e.g., specific accessories)
# The model adjusts to detect these new classes without retraining
model.set_classes(["blue backpack", "red apple", "sunglasses"])

# Run inference on an image to detect the new zero-shot classes
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

関連概念との区別

ZSLを完全に理解するためには、次のような類似の学習戦略と区別することが役に立つ。 コンピュータビジョン(CV)で使用される同様の学習ストラテジーと区別することが有用である:

  • 少例学習(FSL) ZSLが対象クラスの例を一切必要としないのに対し、FSLはモデルに適応させるためのごく少数のサポートセット(通常1~5例)を提供する。ZSLは視覚的例ではなく意味的推論に完全に依存するため、一般的により困難とみなされている。
  • 一発学習FSLのサブセット。 FSLのサブセットで、モデルは正確に1つのラベル付き例から学習する。ZSLが根本的に異なるのは、新しいカテゴリの画像を1枚も使わずに学習することである。 ZSLは、新しいカテゴリの画像が1枚もなくても動作するので、根本的に異なる。
  • 転移学習この広義の あるタスクから別のタスクへ知識を伝達することを指す。ZSLは特定のタイプの転移学習である。 新しいデータで微調整を行うことなく、未知のクラスに知識を伝達するために意味属性を使用する。 新しいデータで微調整を行う必要がない

課題と今後の展望

While ZSL offers immense potential, it faces challenges such as the domain shift problem, where the semantic attributes learned during training do not perfectly map to the visual appearance of unseen classes. Additionally, ZSL models can suffer from bias, where prediction accuracy is significantly higher for seen classes compared to unseen ones.

Research from organizations like Stanford University's AI Lab and the IEEE Computer Society continues to address these limitations. As computer vision tools become more robust, ZSL is expected to become a standard feature, reducing the reliance on massive data labeling efforts. For teams looking to manage datasets efficiently before deploying advanced models, the Ultralytics Platform offers comprehensive tools for annotation and dataset management.

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加