Yolo 深圳
深セン
今すぐ参加
用語集

CLIP(Contrastive Language-Image Pre-training:対照的な言語-画像事前学習)

Explore how CLIP bridges the gap between vision and language. Learn about zero-shot learning, contrastive image-text pairs, and using CLIP with [YOLO26](https://docs.ultralytics.com/models/yolo26/) for open-vocabulary detection.

CLIP(対照的言語-画像事前学習)は、 OpenAIが開発した画期的なニューラルネットワークアーキテクチャであり、 視覚データと自然言語の間の隔たりを埋めるものである。 従来のコンピュータビジョン(CV)システムが 固定されたカテゴリ群に対して 労力のかかるデータラベリングを必要とするのとは異なり、 CLIPはインターネットから収集した数百万の画像-テキストペアを用いて学習することで 画像を理解することを学ぶ。 このアプローチにより、モデルはゼロショット学習を実現します。つまり、トレーニング中に明示的に見たことのない物体、概念、スタイルを、テキスト記述を読むだけで識別できるのです。視覚情報と言語情報を共有特徴空間にマッピングすることで、CLIPは広範な下流タスクに対して、タスク固有の詳細な微調整を必要としない強力な基盤モデルとして機能します。

建築の仕組み

CLIPの中核メカニズムは、2つの並列エンコーダから構成される:画像エンコーダ(通常はVision Transformer(ViT) またはResNetに基づく)と、現代の大規模言語モデル(LLM)で使用されるものと類似したテキストTransformerである対照学習と呼ばれるプロセスを通じて、システムはバッチ内のどのテキストスニペットがどの画像に一致するかを予測するよう訓練される。

学習中、モデルはパラメータを最適化し、一致する画像-テキストペアのベクトル埋め込みを互いに近づけつつ、不一致ペアを遠ざけます。これによりマルチモーダルな潜在空間が形成され、「ゴールデンレトリバー」の画像の数学的表現は「犬の写真」のテキスト埋め込みの空間的に近い位置に配置されます。 これらのベクトル間のコサイン類似度を計算することで、 モデルは画像が自然言語プロンプトにどれだけ適合しているかを定量化でき、 柔軟な画像分類と検索を可能にします。

実際のアプリケーション

視覚と言語を結びつける能力により、CLIPは現代のAIアプリケーションにおける基盤技術となった:

  • インテリジェントな意味検索:CLIPは、複雑な自然言語処理(NLP)クエリを用いて大規模画像データベースを検索することを可能にします。例えば小売分野のAIでは、買い物客が「ヴィンテージ風フローラル柄サマードレス」と検索すると、画像にそれらの特定のメタデータタグが付与されていなくても、視覚的に正確な結果を取得できます。これは多くの場合、高性能ベクトルデータベースによって実現されています。
  • 生成AI制御Stable Diffusionのようなモデルは、 CLIPに依存してユーザープロンプトを解釈し、生成プロセスを導く。CLIPは評価器として機能し、 生成された視覚的出力がテキスト記述とどの程度一致しているかを評価する。これは高品質な テキストから画像への合成に不可欠である。
  • オープンボキャブラリ物体検出YOLOのような先進的アーキテクチャは CLIP埋め込みを統合し、任意のテキスト入力に基づくdetect を実現する。これにより、 医療分野におけるAIなど、 新規機器や異常の特定が再学習なしで必要な領域での動的検出が可能となる。

UltralyticsでのCLIP機能の使用

標準的な物体検出器は学習クラスに限定される一方、CLIPベースの特徴量を用いることで オープンボキャブラリ検出が可能となる。以下の Python コードは、の使い方を示しています。 ultralytics カスタムテキストプロンプトを使用してdetect パッケージ:

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model utilizing CLIP features
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language text prompts
model.set_classes(["person wearing sunglasses", "red backpack"])

# Run inference on an image to detect the text-defined objects
results = model.predict("travelers.jpg")

# Display the results
results[0].show()

関連概念の区別

CLIPを他の一般的なAIパラダイムと区別することは、その特異的な有用性を理解する上で有益である:

  • CLIPと教師あり学習の比較従来の教師ありモデルでは、各カテゴリ(例:「猫」、「車」)に対して厳密な定義とラベル付き例が必要です。CLIPはウェブ上で見つかる生のテキスト-画像ペアから学習するため、より高い柔軟性を提供し、Ultralytics ツールで管理されることが多い手動アノテーションのボトルネックを解消します。
  • CLIPとYOLO26の比較:CLIPが概念の汎用的な理解を提供する一方、YOLO26は速度と精密な位置特定に最適化された、特化したリアルタイム物体検出器である。CLIPは特徴抽出器やゼロショット分類器としてよく用いられるが、YOLO26は実稼働環境における高速リアルタイム推論のエンジンとなる。
  • CLIPと標準的な対比学習の比較: SimCLR などの手法は、一般的に同一画像の2つの拡張ビューを比較して特徴を学習する。CLIPは画像とテキスト記述を対比させ、単一ではなく2つの異なるデータモダリティを橋渡しする。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加