用語集

CLIP(対照言語イメージプレトレーニング)

OpenAIのCLIPが、ゼロショット学習、画像とテキストのアライメント、コンピュータビジョンの実世界での応用により、どのようにAIに革命をもたらすかをご覧ください。

CLIP(Contrastive Language-Image Pre-training)は、OpenAIが開発した画期的なマルチモーダルモデルで、テキストと画像を理解の共有空間内で結びつける。画像分類のような単一のタスクのために訓練された従来のモデルとは異なり、CLIPは自然言語の記述から直接視覚的な概念を学習します。インターネット上の画像とテキストのペアの膨大なデータセットで学習されるため、各タスクのための特別なトレーニングを必要とせず、さまざまなタスクを実行することができますこのアプローチにより、新世代のAIアプリケーションのための強力な基礎モデルとなる。

仕組み

CLIPの中核となるアイデアは、画像とテキストの両方をベクトルとして表現できる共有埋め込み空間を学習することである。画像にはVision Transformer(ViT)または同様のアーキテクチャを、テキストにはtextTransformerを使用する。学習中、モデルは画像とテキストのペアのバッチを与えられ、どのテキストのキャプションがどの画像に対応するかを予測するように学習する。これは対比学習によって達成され、モデルの目標は、正しいペアでは埋め込みの類似度を最大にし、正しくないペアでは最小にすることである。その結果、ビジュアルデータと言語的文脈をリンクさせた、ロバストな概念理解が可能になったオープンソースの実装であるOpenCLIPは、LAION-5Bのようなデータセットで訓練され、この技術を広く利用できるようにした。

実世界での応用

CLIPのユニークな能力は、いくつかの実用的な用途に適している:

  • セマンティック画像検索:CLIPは、ユーザーがキーワードタグの代わりに自然言語クエリを使用して画像を検索できる高度な検索システムを提供します。例えば、ユーザーはeコマースカタログで「男性用の青いストライプシャツ」を検索し、たとえ製品にそのような正確な言葉が明示的にタグ付けされていなくても、関連する結果を得ることができます。Ultralyticsは、CLIPとFAISS(Facebook AI Similarity Search)を使用したセマンティック画像検索ソリューションを提供しています。
  • コンテンツモデレーション:ソーシャルメディアプラットフォームは、CLIPを使用して、ヘイトシンボルや生々しい暴力など、ポリシーに記載されたコンテンツを描写する画像に自動的にフラグを立てることができる。これは、テキスト記述に基づいて違反を特定できるため、従来の方法よりも柔軟性が高く、禁止されるコンテンツの可能性のあるすべてのタイプについて事前にラベル付けされたデータセットを必要としません。
  • ジェネレーティブAIの誘導:CLIPのエンコーダーは、DALL-EやStable DiffusionのようなジェネレーティブAIモデルを誘導するのに非常に重要です。ユーザーがテキストのプロンプトを提供すると、CLIPは生成された画像がプロンプトの意味とどの程度一致しているかを評価し、より正確で関連性の高いビジュアルを生成するようモデルを導きます。
  • アクセシビリティの向上:このモデルは、画像にリッチで説明的なキャプションを自動的に生成することができます。このキャプションは、視覚障害ユーザーに視覚コンテンツを説明するためにスクリーンリーダーで使用することができ、ウェブアクセシビリティを大幅に向上させます。

クリップ対YOLO

CLIPをUltralytics YOLOのような特殊なコンピュータビジョン(CV)モデルと区別することは重要である。

  • CLIPは 意味理解を得意とする。CLIPは、画像に何が含まれているかを大まかな概念的な意味で理解する(例えば、「誕生日パーティー」という概念を理解する)。CLIPの強みは、分類や検索のようなタスクのために言語と視覚を結びつけることであり、強力な視覚言語モデルとなっている。
  • YOLOモデルは ローカリゼーションに優れている。YOLOモデルは物体検出とセグメンテーションのために設計されており、画像内の物体の正確な位置と境界を特定する(例えば、誕生日パーティーのすべての人、ケーキ、風船の位置を特定する)。

これらのモデルは異なるものではあるが、補完的なものである。CVの将来は、CLIPのようなモデルから得られるセマンティック・コンテキストと、YOLO11のような探知機のローカライゼーション精度を組み合わせて、より洗練されたAIシステムを構築することになるかもしれない。

限界と今後の方向性

そのパワーにもかかわらず、CLIPには限界がある。CLIPはインターネット上の膨大で未修正のデータに基づいて訓練されているため、そのデータに見られる社会的バイアスを吸収して再現することができ、AIにおける公平性や潜在的なアルゴリズム・バイアスに関する懸念につながる。また、物体を正確に数えるなど、細かいディテールや空間的な推論を必要とする特定のタスクも苦手としている。スタンフォード大学のCRFM(Center for Research on Foundation Models:基礎モデル研究センター)のような機関での研究を含む現在進行中の研究は、これらのバイアスを軽減し、その能力を向上させることに焦点を当てています。CLIPの知識をさまざまなワークフローに統合することは、モデルとデータセットの管理を簡素化するUltralytics HUBのようなプラットフォームで管理することができます。

Ultralyticsコミュニティに参加する

AIの未来に参加しませんか。世界のイノベーターとつながり、協力し、成長する

今すぐ参加する
クリップボードにコピーされたリンク