OpenAIのCLIPが、ゼロショット学習、画像とテキストのアライメント、コンピュータビジョンの実世界アプリケーションで、AIにどのような革命をもたらすかを発見してください。
CLIP(Contrastive Language-Image Pre-training:対照的言語画像事前学習)は マルチモーダルモデルアーキテクチャである。 OpenAIが導入した画期的なマルチモーダルモデルアーキテクチャである。 処理とのギャップを埋める。CLIPは、あらかじめラベル付けされたカテゴリの固定セットで訓練された従来のコンピュータビジョンシステムとは異なり、以下のように学習します。 インターネットから収集された何億もの画像とテキストのペアで学習することで、画像とテキストの説明を関連付けることを学習します。 インターネットから収集された何億もの画像とテキストのペアで学習する。このアプローチにより、モデルは自然言語のレンズを通して視覚的概念を理解することができる。 ゼロショット学習として知られる機能である。 モデルは、トレーニング中に一度も明示的に見たことのないカテゴリーに画像を正しくclassify することができます。視覚情報とテキスト情報を CLIPは、視覚情報とテキスト情報を共有特徴空間内で整合させることで、以下のような幅広い用途に対応する基礎モデルとして機能します。 の基礎モデルとして機能する。 タスクのための汎用的な基礎モデルとなる。
CLIPのコアとなるメカニズムは、2つのエンコーダーに依存している。 画像を処理するVision Transformer (ViT)またはResNetと 画像を処理するVisionTransformer(ViT)またはResNetと、言語を処理するTextTransformer 言語である。このモデルは この2つのモダリティを同期させるために モダリティを同期させる。学習中、CLIPは(画像、テキスト)ペアのバッチを受け取り、どのテキスト記述がどの画像にマッチするかを予測するよう学習する。 を学習する。CLIPは、正しいペアの埋め込み間の余弦類似度を最大化するようにパラメータを最適化する。 を最大化するようにパラメータを最適化する。 を最小化するようにパラメータを最適化する。
この学習プロセスにより、意味的に類似した画像とテキストが互いに近くに位置する共有潜在空間が得られる。 となる。例えば、"golden retriever "の画像のベクトル表現は、"a photo of a golden retriever "というテキスト文字列のベクトル表現に非常に近くなる。 のベクトル表現は、"a photo of a golden retriever "というテキスト文字列のベクトル表現に非常に近い。このアライメントによって 開発者は、テキストラベルの候補リストを提供するだけで 開発者は、テキストラベルの候補リストを提供するだけで、画像分類を行うことができます。 を見つけることができる。
CLIPの柔軟性により、多くの産業やアプリケーションで採用されている:
CLIPはもともと分類のために設計されたものだが、そのテキストエンコード機能は、最新の物体検出アーキテクチャに統合されている。 オブジェクト検出アーキテクチャに統合され オープン語彙検出を可能にする。YOLOモデルでは ユーザは自然言語プロンプトを使用して実行時にカスタムクラスを定義し、CLIPの言語理解を活用して、再トレーニングなしでオブジェクトを識別することができます。 を活用し、再トレーニングなしでオブジェクトを識別します。
次の例は、YOLOモデルを ultralytics detect
パッケージは、テキストで定義されたカスタムオブジェクトを検出します:
from ultralytics import YOLO
# Load a pre-trained YOLO-World model utilizing CLIP-based text features
model = YOLO("yolov8s-world.pt")
# Define custom classes using natural language prompts
model.set_classes(["person wearing a hat", "red backpack"])
# Run inference on an image to detect the specified objects
results = model.predict("bus_stop.jpg")
# Display the detection results
results[0].show()
CLIPを以下のような標準的な教師ありモデルと区別することは重要である。 ResNetや YOLO初期バージョンと区別することが重要である。
最近の研究では、これらのアプローチを組み合わせることが多い。例えば 視覚言語モデル(VLM) は、意味的な豊かさを提供するためにCLIPをバックボーンとして使用することが多い。 のようなモデルによるアーキテクチャの改良は、これらのマルチモーダルシステムの速度と精度の向上を目指している。