OpenAIのCLIPが、ゼロショット学習、画像とテキストのアライメント、コンピュータビジョンの実世界での応用により、どのようにAIに革命をもたらすかをご覧ください。
CLIP(Contrastive Language-Image Pre-training)は、OpenAIが開発した画期的なマルチモーダルモデルで、テキストと画像を理解の共有空間内で結びつける。画像分類のような単一のタスクのために訓練された従来のモデルとは異なり、CLIPは自然言語の記述から直接視覚的な概念を学習します。インターネット上の画像とテキストのペアの膨大なデータセットで学習されるため、各タスクのための特別なトレーニングを必要とせず、さまざまなタスクを実行することができます。このアプローチにより、新世代のAIアプリケーションのための強力な基礎モデルとなる。
CLIPの中核となるアイデアは、画像とテキストの両方をベクトルとして表現できる共有埋め込み空間を学習することである。画像にはVision Transformer(ViT)または同様のアーキテクチャを、テキストにはtextTransformerを使用する。学習中、モデルは画像とテキストのペアのバッチを与えられ、どのテキストのキャプションがどの画像に対応するかを予測するように学習する。これは対比学習によって達成され、モデルの目標は、正しいペアでは埋め込みの類似度を最大にし、正しくないペアでは最小にすることである。その結果、ビジュアルデータと言語的文脈をリンクさせた、ロバストな概念理解が可能になった。オープンソースの実装であるOpenCLIPは、LAION-5Bのようなデータセットで訓練され、この技術を広く利用できるようにした。
CLIPのユニークな能力は、いくつかの実用的な用途に適している:
CLIPをUltralytics YOLOのような特殊なコンピュータビジョン(CV)モデルと区別することは重要である。
これらのモデルは異なるものではあるが、補完的なものである。CVの将来は、CLIPのようなモデルから得られるセマンティック・コンテキストと、YOLO11のような探知機のローカライゼーション精度を組み合わせて、より洗練されたAIシステムを構築することになるかもしれない。
そのパワーにもかかわらず、CLIPには限界がある。CLIPはインターネット上の膨大で未修正のデータに基づいて訓練されているため、そのデータに見られる社会的バイアスを吸収して再現することができ、AIにおける公平性や潜在的なアルゴリズム・バイアスに関する懸念につながる。また、物体を正確に数えるなど、細かいディテールや空間的な推論を必要とする特定のタスクも苦手としている。スタンフォード大学のCRFM(Center for Research on Foundation Models:基礎モデル研究センター)のような機関での研究を含む現在進行中の研究は、これらのバイアスを軽減し、その能力を向上させることに焦点を当てています。CLIPの知識をさまざまなワークフローに統合することは、モデルとデータセットの管理を簡素化するUltralytics HUBのようなプラットフォームで管理することができます。