Yolo 深圳
深セン
今すぐ参加
用語集

CLIP(Contrastive Language-Image Pre-training:対照的な言語-画像事前学習)

OpenAIのCLIPが、ゼロショット学習、画像とテキストのアライメント、コンピュータビジョンの実世界アプリケーションで、AIにどのような革命をもたらすかを発見してください。

CLIP(Contrastive Language-Image Pre-training:対照的言語画像事前学習)は マルチモーダルモデルアーキテクチャである。 OpenAIが導入した画期的マルチモーダルモデルアーキテクチャである。 処理とのギャップを埋める。CLIPは、あらかじめラベル付けされたカテゴリの固定セットで訓練された従来のコンピュータビジョンシステムとは異なり、以下のように学習します。 インターネットから収集された何億もの画像とテキストのペアで学習することで、画像とテキストの説明を関連付けることを学習します。 インターネットから収集された何億もの画像とテキストのペアで学習する。このアプローチにより、モデルは自然言語のレンズを通して視覚的概念を理解することができる。 ゼロショット学習として知られる機能である。 モデルは、トレーニング中に一度も明示的に見たことのないカテゴリーに画像を正しくclassify することができます。視覚情報とテキスト情報を CLIPは、視覚情報とテキスト情報を共有特徴空間内で整合させることで、以下のような幅広い用途に対応する基礎モデルとして機能します。 の基礎モデルとして機能する。 タスクのための汎用的な基礎モデルとなる。

CLIPの仕組み

CLIPのコアとなるメカニズムは、2つのエンコーダーに依存している。 画像を処理するVision Transformer (ViT)またはResNetと 画像を処理するVisionTransformer(ViT)またはResNetと、言語を処理するTextTransformer 言語である。このモデルは この2つのモダリティを同期させるために モダリティを同期させる。学習中、CLIPは(画像、テキスト)ペアのバッチを受け取り、どのテキスト記述がどの画像にマッチするかを予測するよう学習する。 を学習する。CLIPは、正しいペアの埋め込み間の余弦類似度を最大化するようにパラメータを最適化する。 最大化するようにパラメータを最適化する。 を最小化するようにパラメータを最適化する。

この学習プロセスにより、意味的に類似した画像とテキストが互いに近くに位置する共有潜在空間が得られる。 となる。例えば、"golden retriever "の画像のベクトル表現は、"a photo of a golden retriever "というテキスト文字列のベクトル表現に非常に近くなる。 のベクトル表現は、"a photo of a golden retriever "というテキスト文字列のベクトル表現に非常に近い。このアライメントによって 開発者は、テキストラベルの候補リストを提供するだけで 開発者は、テキストラベルの候補リストを提供するだけで、画像分類を行うことができます。 を見つけることができる。

実際のアプリケーション

CLIPの柔軟性により、多くの産業やアプリケーションで採用されている:

  • セマンティック画像検索:従来の検索はメタデータやタグに依存していましたが、CLIPはセマンティック検索を可能にします。 セマンティック検索を可能にします。 データベースを検索することができます。例えば、"夕暮れ時の混雑したビーチ" を検索すると、キーワードではなくビジュアルコンテンツに基づいて関連画像が検索されます。 小売業やデジタル資産管理におけるAIにとって貴重な技術である。
  • 生成モデルを導く:CLIPは、テキスト画像生成モデルの評価とガイダンスにおいて重要な役割を果たす。 重要な役割を果たす。生成された画像がどの程度ユーザーのプロンプトと一致するかをスコア化することで 生成された画像がユーザーのプロンプトとどの程度一致するかをスコアリングすることで、CLIPは次のようなモデルのための舵取り可能なメトリックとして機能する。 安定拡散やVQGANのようなモデルにとって、視覚的な出力がテキスト的な意図と一致することを保証する、舵取り可能な指標として機能します。 の意図と一致することを保証する。
  • コンテンツモデレーション:プラットフォームはCLIPを使用し、画像と禁止カテゴリのテキストを比較することで、不適切なコンテンツをフィルタリングします。 テキストと比較することにより、不適切なコンテンツをフィルタリングします。この自動化された データ・セキュリティ対策は、手作業による より効果的です。

物体検出のCLIP

CLIPはもともと分類のために設計されたものだが、そのテキストエンコード機能は、最新の物体検出アーキテクチャに統合されている。 オブジェクト検出アーキテクチャに統合され オープン語彙検出を可能にする。YOLOモデルでは ユーザは自然言語プロンプトを使用して実行時にカスタムクラスを定義し、CLIPの言語理解を活用して、再トレーニングなしでオブジェクトを識別することができます。 を活用し、再トレーニングなしでオブジェクトを識別します。

次の例は、YOLOモデルを ultralytics detect パッケージは、テキストで定義されたカスタムオブジェクトを検出します:

from ultralytics import YOLO

# Load a pre-trained YOLO-World model utilizing CLIP-based text features
model = YOLO("yolov8s-world.pt")

# Define custom classes using natural language prompts
model.set_classes(["person wearing a hat", "red backpack"])

# Run inference on an image to detect the specified objects
results = model.predict("bus_stop.jpg")

# Display the detection results
results[0].show()

CLIPと従来のビジョン・モデルの比較

CLIPを以下のような標準的な教師ありモデルと区別することは重要である。 ResNetや YOLO初期バージョンと区別することが重要である。

  • 従来のモデルは通常、次のような閉じたデータセットで学習される。 ImageNetのようなクローズドなデータセットで学習される。 カテゴリ)。新しいカテゴリが必要な場合、モデルは新しいラベル付きデータで 新しいラベル付きデータで微調整する必要がある
  • CLIPはオープン・ボキャブラリー学習機である。テキストに記述できるあらゆる概念に汎化することができる。 一方 YOLO11のような特殊化されたモデルは、特定のタスク CLIPは一般化された理解のために比類のない汎用性を提供します。

最近の研究では、これらのアプローチを組み合わせることが多い。例えば 視覚言語モデル(VLM) は、意味的な豊かさを提供するためにCLIPをバックボーンとして使用することが多い。 のようなモデルによるアーキテクチャの改良は、これらのマルチモーダルシステムの速度と精度の向上を目指している。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加