YOLO Vision 2025にご期待ください!
2025年9月25日
10:00 — 18:00(英国夏時間)
ハイブリッドイベント
Yolo Vision 2024
用語集

ゼロショット学習

ゼロショット学習を発見しましょう。これは、モデルが未知のデータを分類することを可能にする最先端のAIアプローチであり、物体検出、NLPなどを革新します。

ゼロショット学習(ZSL)は、機械学習(ML)における魅力的な機能であり、モデルがトレーニングデータフェーズで一度も見たことのないカテゴリからオブジェクトを認識し、分類できます。考えられるすべてのクラスに対して明示的な例を必要とする従来の教師あり学習とは異なり、ZSLを使用すると、モデルは知識を新しい、見たことのないクラスに一般化できます。これは、属性やテキスト埋め込みなどの高レベルのセマンティック記述を通じて、観察されたクラスと観察されていないクラスを関連付けることによって実現されます。これにより、特に網羅的なラベル付きデータを収集することが非現実的な現実世界のシナリオにおいて、AIモデルはより柔軟でスケーラブルになります。

その仕組み

ZSLの基本的な考え方は、画像からの視覚的特徴とテキストからのセマンティック情報の両方を表現できる共有埋め込み空間を作成することです。トレーニング中、モデルは既知クラスの画像を、対応するセマンティックベクトル(属性または単語埋め込み)にマッピングすることを学習します。たとえば、モデルは「馬」の視覚的特徴を学習し、「四本足がある」、「哺乳類である」、「乗ることができる」などのセマンティックな説明にリンクします。

「シマウマ」のような未知のクラスの画像が提示されると、モデルはその視覚的特徴を抽出します。同時に、「馬に似ている」、「縞模様がある」など、「シマウマ」の意味的記述を使用して、埋め込み空間内でその位置を特定します。抽出された視覚的特徴に最も近い意味的記述を見つけることで、モデルは1枚のトレーニング画像がなくても、画像を「シマウマ」として正しく分類できます。このプロセスは、多くの場合、ビジョンと言語の接続に優れている、OpenAIのCLIPのような強力な事前トレーニング済みのマルチモーダルモデルに依存しています。

ゼロショット学習 vs. その他のパラダイム

ZSLを関連する学習テクニックと区別することが重要です。

  • フューショット学習(FSL): FSL では、モデルは新しいクラスごとに非常に少ない数のラベル付きの例(たとえば、1〜5)でトレーニングされます。これは、ターゲットクラスの例がゼロで動作する ZSL とは異なります。
  • One-Shot Learning (OSL): OSLはFSLのサブタイプであり、モデルは新しいクラスのサンプルを1つだけ受け取ります。一般的なFSLよりもデータ制約が厳しいものの、ZSLとは異なり、少なくとも1つのサンプルが必要です。
  • 転移学習: ZSLは転移学習の一形態ですが、独自性があります。標準的な転移学習では、通常、事前学習済みのモデルを新しい(より小さな)ラベル付きデータセットでファインチューニングしますが、ZSLは補助的な意味情報のみを使用して新しいクラスに知識を転移し、これらのクラスのラベル付きサンプルを必要としません。

実際のアプリケーション

ZSLには多くの実用的なアプリケーションがあり、コンピュータビジョンシステムをよりダイナミックで適応性のあるものにしています。

  1. オープンボキャブラリー物体検出: YOLO-Worldのようなモデルは、ZSLを活用して、テキストで記述されたあらゆる物体を検出します。ユーザーは、「青いシャツを着た人」や「漏れているパイプ」のようなテキストプロンプトを提供でき、モデルは、これらの特定のカテゴリで明示的にトレーニングされていなくても、画像またはビデオストリーム内でこれらの物体を特定できます。これは、真に汎用的なビジョンシステムを作成するための重要なステップです。
  2. 自律的な種識別: 野生生物保護のためのAIでは、ZSLは、まれな種や新しく発見された種を識別できます。一般的な動物でトレーニングされたモデルは、Wikipediaのようなナレッジベースからの記述的な属性(「首が長い」、「斑点がある」、「草食動物である」など)を使用して、キリンの画像を元のトレーニングセットに含めなくても、キリンを識別できます。

課題と今後の方向性

その可能性にもかかわらず、ZSLは、ハブネス問題(セマンティック空間内の一部の点が、あまりにも多くの点の最近傍になる)や、ドメインシフト(特徴と属性の間の関係が、既知のクラスと未知のクラスで異なる)などの課題に直面しています。これらの問題に対処するために、研究者は、推論中に既知および未知のクラスの両方を認識する必要がある一般化ゼロショット学習(GZSL)のような、より堅牢な技術を開発しています。基盤モデルUltralytics HUBのようなプラットフォームの進化により、ZSLの統合とデプロイがさらに簡素化され、AIシステムは広範なデータラベリングへの依存度が低くなり、人間のような推論により適合するようになります。

Ultralyticsコミュニティに参加しませんか?

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加
クリップボードにコピーしました