YOLO Vision 2025にご期待ください!
2025年9月25日
10:00 — 18:00(英国夏時間)
ハイブリッドイベント
Yolo Vision 2024
用語集

マルチモーダル学習

AIにおけるマルチモーダル学習の力を発見しましょう!モデルが、より豊かな現実世界の問題解決のために、多様なデータ型をどのように統合するかを探求します。

マルチモーダル学習は、AIモデルが複数の種類のデータ(モダリティと呼ばれる)からの情報を処理および理解するようにトレーニングされる機械学習(ML)のサブフィールドです。人間が視覚、聴覚、言語を組み合わせて世界を認識するのと同じように、マルチモーダル学習により、AIは画像、テキスト、オーディオ、センサーの読み取り値などのソースからのデータを統合することで、より全体的かつコンテキストに基づいた理解を深めることができます。このアプローチは、単一焦点システムを超えて、人間のような知能を反映した、より豊かな解釈とより高度なアプリケーションを可能にします。最終的な目標は、包括的な洞察を得るために、見て、読んで、聞くことができるモデルを構築することです。

マルチモーダル学習の仕組み

マルチモーダル学習システムは、表現、アライメント、融合という3つの中核的な課題に取り組むように設計されています。まず、モデルは各モダリティの有意義な表現を学習する必要があります。多くの場合、ピクセルや単語のような多様なデータ型を埋め込みと呼ばれる数値ベクトルに変換します。次に、これらの表現を調整し、モダリティ間の関連する概念を接続する必要があります。たとえば、「フリスビーをキャッチする犬」というテキストを、写真内の対応する視覚要素にリンクします。最後に、これらの調整された表現を融合して、統一された予測を行ったり、新しいコンテンツを生成したりします。この融合はさまざまな段階で発生する可能性があり、Transformerとその注意機構のようなアーキテクチャの開発は、効果的な融合戦略の作成において極めて重要でした。

実際のアプリケーション

マルチモーダル学習は、多くの最先端のAI機能の原動力です。以下に、いくつかの著名な例を示します。

  1. Visual Question Answering(VQA): VQAでは、AIモデルに画像とそれに関する自然言語の質問(例:「赤いシャツを着ている人は何をしていますか?」)が与えられます。モデルは、画像からの視覚情報とテキストの意味を同時に処理して、正確な回答を提供する必要があります。この技術は、視覚障碍者向けの支援ツールや高度なコンテンツ分析を作成するために使用されます。一般的なVQAデータセットを調べて、より多くの例を見ることができます。
  2. テキストから画像生成: OpenAIのDALL-E 3Stable Diffusionのような生成モデルは、マルチモーダル学習の代表的な例です。テキストによる説明(プロンプト)を受け取り、それに対応する新しい画像を生成します。これには、言語の深い理解と、抽象的な概念を整合性のある視覚的な詳細に変換する能力が必要です。これはNLPと生成ビジョンを組み合わせたタスクです。

主な相違点

マルチモーダル学習と関連用語を区別すると役立ちます。

  • マルチモーダルモデル: マルチモーダル学習は、複数のデータ型を使用してAIを学習させるプロセスまたは研究分野です。マルチモーダルモデルは、これらの技術を使用して設計および学習された結果として得られるAIシステムまたはアーキテクチャです。
  • コンピュータビジョン(CV): CVは、視覚データの処理と理解に特化しています。Ultralytics YOLO11のような特化されたCVモデルは、物体検出のようなタスクに優れていますが、マルチモーダル学習は、その視覚データを他のモダリティと統合することで、さらに進んでいます。
  • 自然言語処理(NLP): NLPは、人間の言語の理解と生成を扱います。マルチモーダル学習は、Vision Language Modelsに見られるように、言語データを画像やセンサーデータなどの他のモダリティと統合します。
  • Foundation Models: これらは、大量のデータで事前トレーニングされた大規模モデルです。GPT-4のような最新のFoundation Modelsの多くは、本質的にマルチモーダルですが、その概念は異なります。マルチモーダル学習は、スタンフォード大学のCRFMのような研究機関で研究されている、これらの強力なモデルを構築するためによく使用される手法です。

課題と今後の方向性

マルチモーダル学習は、異なるソースからのデータを効果的に調整し、最適な融合戦略を開発し、欠落またはノイズの多いデータを処理するなど、独自の課題を提示します。これらのマルチモーダル学習における課題への対処は、活発な研究分野であり続けています。この分野は急速に進化しており、人間のように世界を認識し、推論するAIシステムに向けて境界を押し広げ、汎用人工知能(AGI)の開発に貢献する可能性があります。Ultralytics HUBのようなプラットフォームは現在、主にコンピュータビジョンタスクに焦点を当てたワークフローを促進していますが、より広範なAIの状況は、マルチモーダル機能の統合が進んでいることを示しています。PyTorchTensorFlowのようなフレームワークで開発された新しいモデル機能のアップデートについては、Ultralyticsブログにご注目ください。

Ultralyticsコミュニティに参加しませんか?

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加
クリップボードにコピーしました