ゼロショット学習を発見しましょう。これは、モデルが未知のデータを分類することを可能にする最先端のAIアプローチであり、物体検出、NLPなどを革新します。
ゼロショット学習(ZSL)は、機械学習(ML)における魅力的な機能であり、モデルがトレーニングデータフェーズで一度も見たことのないカテゴリからオブジェクトを認識し、分類できます。考えられるすべてのクラスに対して明示的な例を必要とする従来の教師あり学習とは異なり、ZSLを使用すると、モデルは知識を新しい、見たことのないクラスに一般化できます。これは、属性やテキスト埋め込みなどの高レベルのセマンティック記述を通じて、観察されたクラスと観察されていないクラスを関連付けることによって実現されます。これにより、特に網羅的なラベル付きデータを収集することが非現実的な現実世界のシナリオにおいて、AIモデルはより柔軟でスケーラブルになります。
ZSLの基本的な考え方は、画像からの視覚的特徴とテキストからのセマンティック情報の両方を表現できる共有埋め込み空間を作成することです。トレーニング中、モデルは既知クラスの画像を、対応するセマンティックベクトル(属性または単語埋め込み)にマッピングすることを学習します。たとえば、モデルは「馬」の視覚的特徴を学習し、「四本足がある」、「哺乳類である」、「乗ることができる」などのセマンティックな説明にリンクします。
「シマウマ」のような未知のクラスの画像が提示されると、モデルはその視覚的特徴を抽出します。同時に、「馬に似ている」、「縞模様がある」など、「シマウマ」の意味的記述を使用して、埋め込み空間内でその位置を特定します。抽出された視覚的特徴に最も近い意味的記述を見つけることで、モデルは1枚のトレーニング画像がなくても、画像を「シマウマ」として正しく分類できます。このプロセスは、多くの場合、ビジョンと言語の接続に優れている、OpenAIのCLIPのような強力な事前トレーニング済みのマルチモーダルモデルに依存しています。
ZSLを関連する学習テクニックと区別することが重要です。
ZSLには多くの実用的なアプリケーションがあり、コンピュータビジョンシステムをよりダイナミックで適応性のあるものにしています。
その可能性にもかかわらず、ZSLは、ハブネス問題(セマンティック空間内の一部の点が、あまりにも多くの点の最近傍になる)や、ドメインシフト(特徴と属性の間の関係が、既知のクラスと未知のクラスで異なる)などの課題に直面しています。これらの問題に対処するために、研究者は、推論中に既知および未知のクラスの両方を認識する必要がある一般化ゼロショット学習(GZSL)のような、より堅牢な技術を開発しています。基盤モデルとUltralytics HUBのようなプラットフォームの進化により、ZSLの統合とデプロイがさらに簡素化され、AIシステムは広範なデータラベリングへの依存度が低くなり、人間のような推論により適合するようになります。