用語集

マルチモーダルAI

マルチモーダルAIとは、システムがテキスト、画像、音声などの多様なデータを処理し、理解する分野です。マルチモーダルAIの仕組みと主な応用例をご覧ください。

マルチモーダルAIとは、人工知能(AI)の一分野で、システムがモダリティと呼ばれる複数の種類のデータからの情報を処理、理解、推論するように設計されたものを指す。一般的に単一のデータ・タイプ(例えば、テキストのみ、画像のみ)に焦点を当てる従来のAIシステムとは異なり、マルチモーダルAIは、テキスト、画像、音声、動画、さらにはセンサー・データなど、多様なデータ・ソースを統合し、解釈する。このアプローチにより、AIは、人間が視覚、聴覚、言語を併用して周囲の環境を認識するのと同じように、世界についてより包括的で人間のような理解を得ることができる。この分野の中心的な課題は、各モダリティを処理するだけでなく、それらを効果的に組み合わせて、統一された文脈豊かな解釈を生み出すことである。

マルチモーダルAIの仕組み

マルチモーダルAIシステムの開発には、いくつかの重要なステップがある。まず、モデルはそれぞれのデータタイプに対して意味のある数値表現を作成しなければならない。例えば、テキスト入力は言語モデルによって処理され、画像はコンピュータ・ビジョン(CV)モデルによって処理される。次の重要なステップはフュージョンであり、ここでこれらの異なる表現が組み合わされる。このための技術は、単純な連結から、モデルが与えられたタスクに対して異なるモダリティの重要性を重み付けすることを可能にする注意メカニズムを含む、より複雑な方法まで様々である。

トランスフォーマー・アーキテクチャーは、影響力のある論文"Attention Is All You Need "で紹介されたもので、現代のマルチモーダルシステムの成功の基礎となっている。シーケンシャルなデータを扱い、長距離の依存関係を捉えるその能力は、異なるソースからの情報を統合するのに非常に効果的である。PyTorchや TensorFlowのような主要なフレームワークは、これらの複雑なモデルの構築と学習に必要なツールを提供する。

実世界での応用

マルチモーダルAIは、より多機能で直感的な新世代のインテリジェント・アプリケーションを後押ししている。

  1. 視覚的質問応答(VQA):VQAシステムでは、ユーザーは画像を提示し、それについて自然言語で質問することができる。AIはテキストを理解し、視覚情報を分析し、適切な答えを生成しなければならない。この技術は、視覚障害者のためのアクセシビリティ・ツールの作成や、インタラクティブな学習プラットフォームの強化に利用されている。

  2. テキストから画像への生成OpenAIのDALL-E 3や Stability AIのStable Diffusionのようなプラットフォームは、マルチモーダルAIの顕著な例である。これらはテキストによる説明(プロンプト)を受け取り、対応する画像を生成する。これには、言語概念がどのように視覚的属性に変換されるかをモデルが深く理解する必要があり、新しい形のデジタルアートやコンテンツ制作を可能にする。

マルチモーダルAIと関連概念との比較

マルチモーダルAIを類似の用語と区別することは重要である:

  • マルチモーダルモデルマルチモーダルAIは広範な研究分野であり、マルチモーダルモデルはマルチモーダルAIの原理を使って作られた特定のシステムやアーキテクチャ(例えば、視覚を持つGPT-4)である。
  • マルチモーダル学習マルチモーダルモデルの学習に使用されるアルゴリズムと手法に焦点を当てた機械学習(ML)のサブフィールドを指す。マルチモーダルAIを可能にする技術分野である。
  • 大規模言語モデル(LLM)従来のLLMはユニモーダル(テキストのみ)であったが、最近の基礎モデルの多くは、テキストと他のデータタイプを統合したマルチモーダルになっている。このような先進的なシステムは、ビジョン言語モデル(VLM)と呼ばれることが多い。
  • 特殊化された視覚モデル:マルチモーダルシステムは画像を描写することができる(「犬がフリスビーをキャッチしている」)が、Ultralytics YOLOのような特化したモデルは、正確なバウンディングボックスで犬とフリスビーの位置を特定する、物体検出のような正確で高速なタスクに優れている。これらのモデルは補完的である。YOLOは "何 "と "どこ "を提供し、マルチモーダルAIは "どのように "と "なぜ "を加えることができる。それぞれの長所を理解するために、さまざまな物体検出モデルの比較を調べることができる。

特化型モデルとマルチモーダルモデルの開発と導入は、MLワークフローを合理化するUltralytics HUBのようなプラットフォームを使って管理することができる。マルチモーダルAIの進歩は、より有能で適応性の高いAIの実現に向けた重要な一歩であり、Google DeepMindのような機関が研究する人工知能(AGI)への道を開く可能性がある。

Ultralyticsコミュニティに参加する

AIの未来に参加しませんか。世界のイノベーターとつながり、協力し、成長する

今すぐ参加する
クリップボードにコピーされたリンク