用語集

マルチモーダル学習

AIにおけるマルチモーダル学習のパワーを発見してください!より豊かで現実的な問題解決のために、モデルがどのように多様なデータタイプを統合しているかを探求してください。

マルチモーダル学習は機械学習(ML)の一分野であり、AIモデルがモダリティと呼ばれる複数の種類のデータからの情報を処理・理解するように訓練される。人間が視覚、聴覚、言語を組み合わせて世界を認識するように、マルチモーダル学習は、画像、テキスト、音声、センサー読み取りなどのソースからのデータを統合することで、AIがより全体的で文脈的な理解を深めることを可能にする。このアプローチは、単一焦点のシステムを超えて、人間のような知性を反映した、より豊かな解釈とより洗練されたアプリケーションを可能にする。最終的な目標は、包括的な洞察を導き出すために、見たり、読んだり、聞いたりできるモデルを構築することである。

マルチモーダル学習の仕組み

マルチモーダル学習システムは、表現、アライメント、融合という3つの核となる課題に取り組むように設計されている。まず、モデルは各モダリティに対して意味のある表現を学習する必要があり、多くの場合、ピクセルや単語などの多様なデータタイプをエンベッドと呼ばれる数値ベクトルに変換する。例えば、「フリスビーをキャッチする犬」というテキストと、それに対応する写真の視覚的要素とを結びつける。最後に、これらの整列された表現を融合して、統一された予測を行ったり、新しいコンテンツを生成したりする。この融合はさまざまな段階で行われる可能性があり、トランスフォーマーとその注意メカニズムのようなアーキテクチャの開発は、効果的な融合戦略を生み出す上で極めて重要であった。

実世界での応用

マルチモーダル学習は、多くの最先端AI能力を支えるエンジンである。以下はその顕著な例である:

  1. 視覚的質問応答(VQA):VQAでは、AIモデルに画像とそれに関する自然言語による質問(例えば「赤いシャツの人は何をしていますか?)モデルは、正確な答えを提供するために、画像からの視覚情報とテキストの意味的意味を同時に処理しなければならない。この技術は、視覚障害者のための支援ツールの作成や、高度なコンテンツ分析に使用されている。人気のあるVQAデータセットを検索して、より多くの例を見ることができます。
  2. テキストから画像への生成: OpenAIのDALL-E 3や Stable Diffusionのような生成モデルは、マルチモーダル学習の代表例である。これらはテキスト記述(プロンプト)を受け取り、それに対応する新しい画像を生成する。これには、言語に対する深い理解と、抽象的な概念を首尾一貫した視覚的詳細に変換する能力が必要であり、これはNLPとジェネレーティブ・ビジョンを組み合わせたタスクである。

主な特徴

マルチモーダルラーニングを関連用語と区別することは有益である:

  • マルチモーダルモデルマルチモーダル学習とは、複数のデータタイプを使用してAIをトレーニングするプロセスまたは研究分野である。マルチモーダルモデルとは、これらの技術を用いて設計・訓練されたAIシステムやアーキテクチャのことである。
  • コンピュータ・ビジョン(CV)CVは、視覚データの処理と理解に特化している。Ultralytics YOLO11のようなCVに特化したモデルは、物体検出のようなタスクに優れているが、マルチモーダル学習は、視覚データを他のモダリティと統合することで、さらに進化する。
  • 自然言語処理(NLP)NLPは人間の言語を理解し、生成することを扱う。マルチモーダル学習は、視覚言語モデルに見られるように、言語データを画像やセンサーの読み取り値のような他のモダリティと統合する。
  • 基礎モデルこれらは、膨大な量のデータで事前に訓練された大規模なモデルである。GPT-4のような最新の基礎モデルの多くは、本質的にマルチモーダルであるが、コンセプトは異なる。マルチモーダル学習は、これらの強力なモデルを構築するためによく使われる手法であり、スタンフォード大学のCRFMのような機関で研究されている。

課題と今後の方向性

マルチモーダル学習には、異なるソースからのデータを効果的に整列させる、最適な融合戦略を開発する、欠損データやノイズの多いデータを処理する、といったユニークな課題がある。マルチモーダル学習におけるこれらの課題に取り組むことは、依然として活発な研究分野である。この分野は急速に進化しており、より人間のように世界を認識し、推論するAIシステムの境界を押し広げ、人工知能(AGI)の発展に貢献する可能性があります。現在、Ultralytics HUBのようなプラットフォームは、主にコンピュータ・ビジョンのタスクに焦点を当てたワークフローを促進していますが、より広範なAIの状況は、マルチモーダル機能の統合が進むことを示しています。UltralyticsブログではPyTorchや TensorFlowのようなフレームワークで開発された新しいモデル機能の最新情報をお届けします。

Ultralyticsコミュニティに参加する

AIの未来に参加しませんか。世界のイノベーターとつながり、協力し、成長する

今すぐ参加する
クリップボードにコピーされたリンク