YOLO Vision Shenzhen
深セン
今すぐ参加
用語集

マルチモーダルモデル

マルチモーダルモデルがテキスト、画像、音声をどのように統合するかを探ります。Ultralytics YOLO26のようなアーキテクチャについて学び、Ultralytics PlatformでビジョンAIをデプロイしましょう。

マルチモーダルモデルは、複数の異なるデータタイプ、つまり「モダリティ」からの情報を同時に処理、解釈、統合できる、高度なタイプの人工知能(AI)システムです。従来の単一モダリティシステムがテキスト用の自然言語処理(NLP)や画像用のコンピュータビジョン(CV)といった単一のドメインに特化しているのに対し、マルチモーダルモデルは、視覚、聴覚、言語の手がかりを統合することで人間の知覚を模倣することを目指しています。この収束により、モデルは世界を包括的に理解し、視覚的なシーンと口頭での説明との間に複雑な相関関係を導き出すことができます。これらの機能は、汎用人工知能(AGI)の達成に向けた基礎的なステップと考えられています。

中核メカニズムとアーキテクチャ

マルチモーダルモデルの有効性は、多様なデータ型を共有のセマンティック空間にマッピングする能力にかかっています。このプロセスは通常、入力データの重要な意味を捉える数値表現である埋め込みの作成から始まります。字幕付き動画のようなペアになった膨大なデータセットで学習することにより、モデルは「猫」の画像のベクトル表現を「猫」という単語のテキスト埋め込みと整合させることを学習します。

この統合を可能にするいくつかの主要なアーキテクチャ概念があります。

  • Transformerアーキテクチャ: 多くのマルチモーダルシステムは、アテンションメカニズムを採用して異なる入力部分の重要性を動的に重み付けするTransformerを利用しています。これにより、モデルはテキストプロンプト内の関連する単語に対応する特定の画像領域に焦点を当てることができ、この概念は画期的な研究論文「Attention Is All You Need」で詳しく説明されています。
  • データ融合: これは、異なるソースからの情報を組み合わせる戦略を指します。センサー融合は、生データをマージすることで早期に、または個別のサブモデルの決定を組み合わせることで後期に発生する可能性があります。PyTorchのような最新のフレームワークは、これらの複雑なパイプラインを構築するために必要な柔軟性を提供します。
  • 対照学習: OpenAI's CLIPのようなモデルで使用される対照学習技術は、ベクトル空間における一致するテキスト-画像ペア間の距離を最小化し、不一致のペア間の距離を最大化するようにシステムをトレーニングします。

実際のアプリケーション

マルチモーダルモデルは、以前は単一モダリティシステムでは達成不可能だった機能を実現しました。

  • 視覚的質問応答 (VQA): これらのシステムは、ユーザーが画像について自然言語で質問することを可能にします。例えば、視覚障害のあるユーザーが食料庫の写真をアップロードし、「一番上の棚にスープ缶はありますか?」と尋ねるかもしれません。モデルはオブジェクト検出を使用してアイテムを識別し、NLPでクエリを理解し、役立つ応答を提供します。
  • 自律走行車: 自律走行車は、リアルタイムのマルチモーダルエージェントとして機能します。カメラからの視覚フィード、LiDARからの深度情報、レーダーからの速度データを組み合わせます。この冗長性により、あるセンサーが悪天候によって遮られた場合でも、他のセンサーが道路の安全を維持することができます。
  • オープンボキャブラリー検出: Ultralytics YOLO-Worldのようなモデルは、固定されたクラスリストではなく、任意のテキストプロンプトを使用してオブジェクトをdetectすることを可能にします。これにより、言語コマンドと視覚認識の間のギャップが埋まります。

例: オープンボキャブラリー detect

次の例は ultralytics ライブラリは、オープンボキャブラリーdetectを実行します。ここでは、モデルがテキストプロンプトを解釈して画像内のオブジェクトを識別します。

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language text prompts
model.set_classes(["person wearing a hat", "blue backpack"])

# Run inference: The model aligns text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Visualize the detection results
results[0].show()

関連用語との区別

「マルチモーダルモデル」をAI用語集の関連概念と区別することは有用です。

  • マルチモーダル学習: これは、これらのシステムを訓練するために使用されるプロセスおよび機械学習(ML)技術を指します。マルチモーダルモデルは、その学習プロセスの結果として得られる成果物またはソフトウェア製品です。
  • 大規模言語モデル (LLM): 従来のLLMはテキストのみを処理します。多くのものがVision-Language Models (VLM)へと進化していますが、標準的なLLMはユニモーダルです。
  • 基盤モデル: これは、多くの下流タスクに適応可能な大規模モデルを記述するより広範なカテゴリです。マルチモーダルモデルはしばしば基盤モデルですが、すべての基盤モデルが複数のモダリティを処理するわけではありません。

マルチモーダルAIの未来

この分野は、オーディオ、ビデオ、テキストの連続ストリームをリアルタイムで処理できるシステムへと急速に進んでいます。Google DeepMindのような組織の研究は、機械知覚の限界を押し広げ続けています。Ultralyticsでは、YOLO26のような高性能ビジョンバックボーンでこのエコシステムをサポートしています。2026年にリリースされたYOLO26は、インスタンスセグメンテーションなどのタスクにおいて優れた速度と精度を提供し、より大規模なマルチモーダルパイプラインにおける効率的な視覚コンポーネントとして機能します。開発者は、統合されたUltralytics Platformを使用して、これらの複雑なワークフローのデータ管理、トレーニング、デプロイメントを行うことができます。

共にAIの未来を築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。