用語集

CLIP(対照言語イメージプレトレーニング)

OpenAIのCLIPが、ゼロショット学習、画像とテキストのアライメント、コンピュータビジョンの実世界での応用により、どのようにAIに革命をもたらすかをご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

CLIP(Contrastive Language-Image Pre-training)は、OpenAIが開発した汎用性の高いニューラルネットワーク(NN)で、日常的な言語を使って記述された視覚的概念の理解に優れています。綿密にラベル付けされたデータセットを必要とする従来の画像分類モデルとは異なり、CLIPはインターネットからかき集めた何億もの画像とテキストのペアを分析することで学習します。画像とそれに対応するテキスト説明の間の複雑な関係を把握するために、対比学習と呼ばれる手法を採用している。このユニークな学習アプローチにより、CLIPは様々なタスクに対して特別な学習を行わなくても、非常に優れた性能を発揮することができる

クリップの仕組み

CLIPのアーキテクチャは、画像エンコーダーとテキストエンコーダーの2つの主要部分から構成されている。画像エンコーダーは、Vision Transformer(ViT)やResNetのようなアーキテクチャを利用することが多く、画像を処理して主要な視覚的特徴を抽出する。並行して、テキストエンコーダは、通常、自然言語処理(NLP)で普及しているTransformerモデルに基づいており、関連するテキスト記述を解析して、その意味的な意味を把握する。学習段階において、CLIPは画像とテキストの両方の表現(埋め込み)を共有された多次元空間に投影することを学習する。対比学習プロセスの中心的な目的は、正しい画像とテキストのペアの埋め込み間の類似度(多くの場合、余弦類似度で測定される)を最大化すると同時に、与えられたバッチ内の不正確なペアの類似度を最小化することである。この方法は、元のCLIP論文で詳述されているように、視覚的パターンと関連する単語やフレーズとを結びつけるよう、モデルに効果的に学習させる。

主な特徴と利点

CLIPの最も大きな利点は、その驚くべきゼロショット学習能力である。CLIPは固定されたカテゴリーではなく、視覚データと言語間の幅広いつながりを学習するため、トレーニング中に遭遇したことのないまったく新しいテキスト記述に基づいて画像を分類することができ、多くの場合、タスク固有の微調整が不要になる。例えば、CLIPは、"スケッチ"、"青"、"犬 "という学習された概念を組み合わせることで、そのようにラベル付けされた画像で明示的に訓練されていなくても、"青い犬のスケッチ "と説明された画像を識別できる可能性がある。この適応性により、CLIPは様々なコンピュータビジョン(CV)アプリケーションで高い価値を発揮する。ImageNetのような標準的なベンチマークデータセット上で教師あり学習パラダイムの下で訓練されたモデルと比較した場合でも、CLIPはしばしば競争力のある性能を達成する。

クリップと他のモデルの比較

CLIPのアプローチは、他の一般的な人工知能(AI)モデルとは異なる:

  • 教師あり画像分類器:従来の分類器は、各画像に特定のラベル(例えば「猫」、「犬」)が設定されたデータセットから学習する。これらの分類器は、あらかじめ定義されたカテゴリを得意としますが、未知の概念に苦戦します。CLIPは構造化されていない画像とテキストのペアから学習するため、任意のテキストプロンプトに対してゼロショットの分類が可能です。
  • 物体検出モデル:以下のようなモデル Ultralytics YOLOのようなモデルは、バウンディングボックスを使用して画像内のオブジェクトの位置を特定し、それらを分類するオブジェクト検出に重点を置いています。検出や セグメントのようなローカリゼーションタスクには強力ですが、分類のための任意の言語記述に対するCLIPの本質的な理解を持っていません。検出性能に関する YOLO モデル間の比較を見ることができます。
  • その他の視覚言語モデル(VLM):CLIPはマルチモーダルモデルの一種です。他のVLMがVisual Question Answering (VQA)や詳細な画像キャプションのようなタスクに焦点を当てているのに対し、CLIPの主な強みはロバストなゼロショット画像分類と画像テキストの類似性マッチングにあります。 Ultralytics ブログで、さまざまなタイプのVLMについて詳しくご覧ください。
  • 生成モデル: Stable Diffusionや DALL-Eのようなモデルは、テキストから画像を生成する(text-to-image)ことに重点を置いています。CLIPは画像そのものを生成するわけではありませんが、そのテキストエンコーダーは、出力画像が入力テキストプロンプトとうまく整合していることを確認するために、生成モデル内でしばしば使用されます。

実世界での応用

CLIPのユニークな能力は、いくつかの実用的な用途に適している:

  • コンテンツモデレーション:不適切または不要なコンテンツのテキスト記述に基づいて、画像を自動的にフィルタリングまたはフラグ付けします。OpenAIは、コンテンツモデレーションツールの一部としてCLIPを使用しています。
  • セマンティック画像検索:膨大な画像ライブラリ(Unsplashのようなストックフォトサイトや個人の写真コレクションなど)を、キーワードやタグだけでなく、自然言語のクエリを使って検索できるようにすること。例えば、"ヤシの木がある夕暮れの穏やかなビーチ "を検索する。
  • アクセシビリティの向上:視覚障害者のために適切な画像説明を自動生成。
  • ジェネレーティブAIの誘導:前述のように、CLIPのエンコーダーは、複雑なテキストプロンプトを正確に反映した画像を生成するジェネレーティブAIモデルの誘導に役立ちます。

限界と今後の方向性

その画期的な能力にもかかわらず、CLIPに限界がないわけではない。膨大で、キュレーションされていないインターネットデータに依存しているため、テキストや画像に存在する社会的バイアスを受け継ぐ可能性があり、AIにおける公平性や潜在的なアルゴリズム・バイアスに関する懸念が生じる。さらにCLIPは、正確な空間的推論(例:物体を正確に数える)を必要とするタスクや、非常に細かい視覚的詳細を認識するタスクで苦戦する可能性がある。研究は、これらのバイアスを軽減し、きめ細かい理解を強化し、CLIPの意味的知識をYOLOv11のようなモデルのローカライゼーションの強みと統合する方法を積極的に探求しています。異なるモデルタイプの組み合わせや実験の管理は、Ultralytics HUBのようなプラットフォームを使って効率化することができます。Ultralytics ブログなどのリソースを通じて、最新のAI開発に関する最新情報を入手してください。

すべて読む