ヨロビジョン深圳
深セン
今すぐ参加
用語集

CLIP(Contrastive Language-Image Pre-training:対照的な言語-画像事前学習)

OpenAIのCLIPが、ゼロショット学習、画像とテキストのアライメント、コンピュータビジョンの実世界アプリケーションで、AIにどのような革命をもたらすかを発見してください。

CLIP(Contrastive Language-Image Pre-training)は、OpenAIによって開発された画期的なマルチモーダルモデルであり、テキストと画像を理解の共有空間内で接続します。画像分類のような単一のタスクのために学習された従来のモデルとは異なり、CLIPは自然言語の説明から直接視覚的な概念を学習します。インターネットからの画像とテキストのペアの大規模なデータセットで学習されており、それぞれに特定のトレーニングを必要とせずに、幅広いタスクを実行できます。これはゼロショット学習として知られる機能です。このアプローチにより、CLIPは新世代のAIアプリケーションのための強力な基盤モデルになります。

仕組み

CLIPの基本的な考え方は、画像とテキストの両方をベクトルとして表現できる共有埋め込み空間を学習することです。2つの独立したエンコーダーを使用します。画像にはVision Transformer(ViT)または同様のアーキテクチャ、テキストにはテキストTransformerを使用します。学習中、モデルには画像とテキストのペアのバッチが与えられ、どのテキストキャプションがどの画像に対応するかを予測することを学習します。これはコントラスト学習によって実現され、モデルの目標は、正しいペアの埋め込みの類似性を最大化し、誤ったペアの類似性を最小化することです。元の研究論文で詳述されている結果は、視覚データと言語コンテキストを結び付ける概念の堅牢な理解です。OpenCLIPというオープンソースの実装が、LAION-5Bのようなデータセットでトレーニングされ、このテクノロジーを広く利用できるようにしました。

実際のアプリケーション

CLIP独自の機能は、いくつかの実用的な用途に役立ちます。

  • セマンティック画像検索: CLIPは、キーワードタグの代わりに自然言語クエリを使用してユーザーが画像を検索できる高度な検索システムを強化します。たとえば、ユーザーがeコマースカタログで「男性用の青いストライプのシャツ」を検索し、製品にそれらの正確な単語で明示的にタグが付けられていなくても、関連する結果を得ることができます。Ultralyticsは、大規模な画像ライブラリで高速かつ正確な検索を行うために、CLIPとFAISS(Facebook AI Similarity Search)を使用するセマンティック画像検索ソリューションを提供しています。
  • コンテンツのモデレーション: ソーシャルメディアプラットフォームは、CLIPを使用して、ヘイトシンボルやグラフィックな暴力など、ポリシーに記述されているコンテンツを描写した画像を自動的にフラグ付けできます。これは、可能なすべての種類の禁止コンテンツに対して事前にラベル付けされたデータセットを必要とせずに、テキスト記述に基づいて違反を識別できるため、従来の方法よりも柔軟性があります。
  • 生成AIの誘導: CLIPのエンコーダーは、DALL-EやStable Diffusionなどの生成AIモデルを誘導するために重要です。ユーザーがテキストプロンプトを提供すると、CLIPは生成された画像を評価して、プロンプトの意味とどの程度一致するかを確認し、モデルを誘導して、より正確で関連性の高いビジュアルを生成します。
  • アクセシビリティの向上:このモデルは、画像に対してリッチで説明的なキャプションを自動的に生成できます。これは、スクリーンリーダーが視覚コンテンツを視覚障碍のあるユーザーに説明するために使用でき、Webのアクセシビリティを大幅に向上させます。

CLIP vs. YOLO

CLIPを、コンピュータビジョン(CV)に特化したモデル(Ultralytics YOLOなど)と区別することが重要です。

  • CLIPは、セマンティックな理解に優れています。画像に何が含まれているかを、広範で概念的な意味で理解しています(例えば、「誕生日パーティー」という概念を理解しています)。その強みは、分類や検索などのタスクのために言語を視覚に結び付けることであり、強力なVision Language Modelとなっています。
  • YOLOモデルは、ローカリゼーションに優れています。これらは物体検出とセグメンテーション用に設計されており、画像内の物体の正確な位置と境界を識別します(例:誕生日パーティーですべての人、ケーキ、風船の位置を特定します)。

これらは異なりますが、相補的なモデルです。CVの将来には、CLIPのようなモデルからのセマンティックコンテキストと、YOLO11のような検出器のローカリゼーション精度を組み合わせて、より高度なAIシステムを構築することが含まれる可能性があります。

制限事項と今後の方向性

その力にもかかわらず、CLIPには制限があります。インターネットからの膨大でキュレーションされていないデータでトレーニングされているため、そのデータに見られる社会的な偏見を吸収して再現する可能性があり、AIの公平性と潜在的なアルゴリズムバイアスに関する懸念につながります。また、オブジェクトを正確に数えるなど、詳細な詳細や空間的推論を必要とする特定のタスクにも苦労します。スタンフォード大学の基盤モデル研究センター(CRFM)などの機関での研究を含む、現在進行中の研究は、これらの偏見を軽減し、その機能を改善することに焦点を当てています。CLIPの知識をさまざまなワークフローに統合することは、モデルとデータセット管理を簡素化するUltralytics HUBのようなプラットフォームで管理できます。

Ultralyticsコミュニティに参加しませんか?

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加
クリップボードにコピーしました