OpenAIのCLIPが、ゼロショット学習、画像とテキストのアライメント、コンピュータビジョンの実世界アプリケーションで、AIにどのような革命をもたらすかを発見してください。
CLIP(Contrastive Language-Image Pre-training)は、OpenAIによって開発された画期的なマルチモーダルモデルであり、テキストと画像を理解の共有空間内で接続します。画像分類のような単一のタスクのために学習された従来のモデルとは異なり、CLIPは自然言語の説明から直接視覚的な概念を学習します。インターネットからの画像とテキストのペアの大規模なデータセットで学習されており、それぞれに特定のトレーニングを必要とせずに、幅広いタスクを実行できます。これはゼロショット学習として知られる機能です。このアプローチにより、CLIPは新世代のAIアプリケーションのための強力な基盤モデルになります。
CLIPの基本的な考え方は、画像とテキストの両方をベクトルとして表現できる共有埋め込み空間を学習することです。2つの独立したエンコーダーを使用します。画像にはVision Transformer(ViT)または同様のアーキテクチャ、テキストにはテキストTransformerを使用します。学習中、モデルには画像とテキストのペアのバッチが与えられ、どのテキストキャプションがどの画像に対応するかを予測することを学習します。これはコントラスト学習によって実現され、モデルの目標は、正しいペアの埋め込みの類似性を最大化し、誤ったペアの類似性を最小化することです。元の研究論文で詳述されている結果は、視覚データと言語コンテキストを結び付ける概念の堅牢な理解です。OpenCLIPというオープンソースの実装が、LAION-5Bのようなデータセットでトレーニングされ、このテクノロジーを広く利用できるようにしました。
CLIP独自の機能は、いくつかの実用的な用途に役立ちます。
CLIPを、コンピュータビジョン(CV)に特化したモデル(Ultralytics YOLOなど)と区別することが重要です。
これらは異なりますが、相補的なモデルです。CVの将来には、CLIPのようなモデルからのセマンティックコンテキストと、YOLO11のような検出器のローカリゼーション精度を組み合わせて、より高度なAIシステムを構築することが含まれる可能性があります。
その力にもかかわらず、CLIPには制限があります。インターネットからの膨大でキュレーションされていないデータでトレーニングされているため、そのデータに見られる社会的な偏見を吸収して再現する可能性があり、AIの公平性と潜在的なアルゴリズムバイアスに関する懸念につながります。また、オブジェクトを正確に数えるなど、詳細な詳細や空間的推論を必要とする特定のタスクにも苦労します。スタンフォード大学の基盤モデル研究センター(CRFM)などの機関での研究を含む、現在進行中の研究は、これらの偏見を軽減し、その機能を改善することに焦点を当てています。CLIPの知識をさまざまなワークフローに統合することは、モデルとデータセット管理を簡素化するUltralytics HUBのようなプラットフォームで管理できます。