Yolo 深圳
深セン
今すぐ参加
用語集

コントラスト学習

コントラスティブ学習の力を発見しましょう。これは、最小限のラベル付きデータで、堅牢なデータ表現を実現する自己教師あり学習の手法です。

対照学習は 機械学習(ML)の強力な手法である。 モデルは、手作業によるラベル付けを必要とせずに、データのロバストな表現を学習することができる。ニューラルネットワークに ニューラルネットワークに類似点と非類似点を このアプローチにより、アルゴリズムはデータセットの根本的な構造を理解することができる。代わりに 特定のカテゴリーを直接予測する代わりに、モデルは例のペアを比較することで学習し、関連する項目の表現を引き出します。 正ペアとして知られる関連する項目の表現を、埋め込み空間においてより近づける。 一方、無関係なもの-負のペア-はより遠くに押しやられる。 をより遠ざける。この機能によって 自己教師付き学習 開発者は膨大な量のラベルなしデータを活用することができる。

対照学習の仕組み

コントラスト学習の中核となるメカニズムは、インスタンス識別の概念を中心に展開される。学習 学習プロセスには、一般的に3つの重要なコンポーネントが含まれる。 関数である。

  • データ拡張:正のペアを作成するために、システムは元の画像(「アンカー」)を取得し、トリミング、反転、色ジッターなどのランダムな変換を適用する。 トリミング、反転、カラー・ジッターなどの変換を加える。これらの補強されたビューは、同じ意味内容を表します。 を表しているが、ピクセル単位では異なっている。
  • エンコーダー・ネットワークA 畳み込みニューラルネットワーク(CNN) またはViT(Vision Transformer)は、アンカーとその拡張バージョンの両方を処理し、特徴ベクトルを生成する。 特徴ベクトルを生成する。次のようなフレームワークがある。 PyTorchのようなフレームワークが一般的に使われている。
  • 対比的損失:InfoNCE損失のような損失関数。 InfoNCE損失のような損失関数は、陽性のペア間の距離を最小化し 正対間の距離を最小化し、アンカーサンプルと負サンプル(通常、同じバッチサイズ内の他の画像)間の距離を最大化することでモデルを最適化する。 バッチサイズ)間の距離を最大化することでモデルを最適化します。次のような画期的な研究があります。 Google ResearchによるSimCLRのような画期的な研究は、この方法が視覚表現学習にいかに効果的であるかを実証している。 視覚表現学習に有効であることを実証している。

実際のアプリケーション

対照的な方法によって学習された表現は、下流のタスクに非常に移行しやすい。

  1. ビジュアル検索と推薦:で 小売業におけるAI、対照学習が セマンティック検索エンジン。商品画像を 商品画像をベクトル空間にマッピングし、視覚的に類似した商品をクラスタ化することで、eコマース・プラットフォームは、ユーザーがクエリした画像のスタイルや特徴にマッチする商品を推奨し、顧客体験を向上させることができる。 電子商取引プラットフォームは、ユーザーのクエリ画像のスタイルや特徴と一致する商品を推奨し、顧客体験を向上させることができる。
  2. 物体検出のための事前トレーニング:ラベル付けされていない膨大なデータセットを用いて、モデルを事前トレーニングすることができます。 対照的な目標で事前に訓練することができる。 オブジェクト検出のような特定のタスクのために微調整される前に、対照的な目的を使って膨大なラベル付けされていないデータセットでモデルを事前トレーニングすることができる。この戦略は この戦略は YOLO11, YOLO11のような高度なアーキテクチャを学習する前によく採用されるこの戦略は、性能と収束速度を大幅に向上させる。 として知られるシナリオ)。

対照学習と関連概念

対照学習と他のパラダイムの違いを理解することは、適切なアプローチを選択するのに役立つ。 に役立つ。

  • 教師あり学習:従来の教師あり学習は、膨大なデータセットに依存しており、すべての画像に手作業によるデータ・ラベリングが必要であった。 データ・ラベリングを必要とする。対照学習は、データそのものから アノテーションのコストを削減する。
  • オートエンコーダー:どちらも教師なしであるが、オートエンコーダーは通常、入力データをピクセル単位で再構成することを目的とする。対照学習 学習は、異なるインスタンスを分離する識別特徴を学習することに重点を置く。 より意味のある表現が得られる。
  • Vs.CLIP: その CLIP(対照言語イメージ事前学習) OpenAIによるCLIPモデルは、対照学習の特殊な応用である。標準的な 標準的な対照学習は画像と画像を比較するが、CLIPは画像とテキストの説明を比較する。 マルチモーダルAI能力を実現する。

例学習した特徴の使用

完全な対比ループのトレーニングには膨大な計算が必要だが、同様の事前トレーニング技術によってロバストな特徴を学習したモデルを活用することができる。 を活用することができる。次の例は、事前に学習された 画像分類モデルをロードして これは、トレーニング中に最適化された基本的な特徴抽出機能を利用します。

from ultralytics import YOLO

# Load a pre-trained YOLO11 classification model
# The backbone of this model has learned to extract powerful features
model = YOLO("yolo11n-cls.pt")

# Run inference on a sample image
# This process utilizes the learned feature embeddings to predict the class
results = model("https://ultralytics.com/images/bus.jpg")

# Display the top predicted class names
print(results[0].names[results[0].probs.top1])

課題と今後の方向性

その成功にもかかわらず、対照学習には課題がある。ネガティブ・ペアを注意深く選ぶ必要がある。 否定的なサンプルが区別しやすすぎると、モデルは効果的な学習をやめてしまう。次のような方法がある。 MoCo(モメンタム・コントラスト)のような方法は、大量の否定サンプルを効率的に扱うためにメモリバンクを導入した。 MoCo(モメンタムコントラスト)のような方法は、大量の負サンプルを効率的に扱うためにメモリバンクを導入した。さらに、学習には多くの場合、高性能GPUなどの計算リソースが必要となる、 必要とする。研究が進むにつれ Ultralytics 、YOLO26のような次期モデルの研究開発において、これらの技術の探求を続けています。 YOLO26のような次期モデルの研究開発において、これらの技術の探求を続けています。 より高速で、より小型で、より正確な検知システムを提供することを目指しています。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加