用語集

マルチモーダルモデル

マルチモーダルAIモデルがどのようにテキスト、画像などを統合し、実世界のアプリケーションのための堅牢で汎用性の高いシステムを構築しているかをご覧ください。

マルチモーダルモデルとは、複数のタイプのデータ、つまり「モダリティ」からの情報を同時に処理し、理解することができる人工知能システムのことである。テキストや画像のみを扱う従来のモデルとは異なり、マルチモーダルモデルはテキスト、画像、音声、その他のデータソースを一緒に解釈することができ、より包括的で人間のような理解を導くことができる。多様なデータストリームを統合するこの能力は、世界を多角的に理解する必要がある複雑なタスクに取り組むことができる、より高度で文脈を認識したAIシステムへ向けた重要な一歩である。このアプローチは、私たちの日常生活におけるAIの未来にとって基本的なものである。

マルチモーダルモデルの仕組み

マルチモーダルモデルの革新の核心は、異なるデータタイプ間の関係を発見し、学習するように設計されたそのアーキテクチャにある。これを可能にする重要なテクノロジーが、画期的な論文"Attention Is All You Need "で詳述されたトランスフォーマーアーキテクチャである。このアーキテクチャーは、入力データの異なる部分(それが文中の単語であれ、画像中のピクセルであれ)の重要性を計量するために、注意メカニズムを使用する。このモデルは、各モダリティからの意味を共通の空間に取り込む共有表現(埋め込み)を作成するように学習する。

これらの洗練されたモデルは、PyTorchや TensorFlowのような強力なディープラーニング(DL)フレームワークを使用して構築されることが多い。学習プロセスでは、テキストキャプション付きの画像など、ペアデータを含む膨大なデータセットをモデルに与え、モダリティ間のつながりを学習させる。

実世界での応用

マルチモーダルモデルは、すでに幅広い革新的なアプリケーションを動かしている。以下はその顕著な例である:

  1. 視覚的質問応答(VQA):ユーザーはモデルに画像を提供し、"テーブルの上にある花の種類は?"のような自然言語で質問することができる。モデルは視覚情報とテキストクエリの両方を処理し、適切な答えを提供する。この技術は、教育や視覚障害者のためのアクセシビリティ・ツールなどの分野で大きな可能性を秘めている。
  2. テキストから画像への生成: OpenAIのDALL-E 3や Midjourneyのようなモデルは、テキストプロンプト(例えば、「空飛ぶ車がある、夕暮れの未来的な街並み」)を受け取り、説明文に一致するユニークな画像を生成する。このような形のジェネレーティブAIは、マーケティングからゲームデザインまで、クリエイティブ産業に革命をもたらしている。

主要概念と区別

マルチモーダルモデルを理解するには、関連する概念に精通する必要がある:

  • マルチモーダル学習これは機械学習(ML)のサブフィールドで、マルチモーダルモデルを学習するためのアルゴリズムやテクニックの開発に焦点を当てている。学術論文でしばしば議論される、データのアライメントや融合戦略などの課題に取り組んでいる。つまり、マルチモーダル学習はプロセスであり、マルチモーダルモデルは結果である。
  • 基礎モデル GPT-4のような最新の基盤モデルの多くは、本質的にマルチモーダルであり、テキストと画像の両方を処理することができる。これらの大規模なモデルは、特定のタスクのために微調整できるベースとして機能する。
  • 大規模言語モデル(LLM)関連性はあるが、LLMは伝統的にテキスト処理に焦点を当てている。マルチモーダルモデルはより広範で、言語だけでなく、異なるデータタイプからの情報を扱い、統合するように明確に設計されている。しかし、視覚言語モデル(VLM)の台頭により、その境界は曖昧になりつつある。
  • 視覚に特化したモデル:マルチモーダルモデルは、Ultralytics YOLOのような特殊なコンピュータビジョン(CV)モデルとは異なります。GPT-4のようなマルチモーダルモデルが画像を描写する(「マットの上に猫が座っている」)のに対し、YOLOモデルは物体検出や インスタンス分割に優れており、バウンディングボックスやピクセルマスクで猫の位置を正確に特定します。YOLOがオブジェクトの位置を特定するのに対して、マルチモーダルモデルはシーンを解釈したり、シーンに関する質問に答えたりします。さまざまなYOLOモデルの比較をご覧ください。

このようなモデルの開発と展開には、Ultralytics HUBのような、データセットとモデルトレーニングワークフローの管理を支援するプラットフォームが関与することが多い。異なるデータタイプを橋渡しする能力により、マルチモーダルモデルはより包括的なAIへの一歩となり、将来の人工知能(AGI)に貢献する可能性があります。

Ultralyticsコミュニティに参加する

AIの未来に参加しませんか。世界のイノベーターとつながり、協力し、成長する

今すぐ参加する
クリップボードにコピーされたリンク