Yolo 深圳
深セン
今すぐ参加
用語集

マルチモーダルモデル

マルチモーダルモデルがテキスト、画像、音声を統合する仕組みを探求しましょう。Ultralytics YOLO26などのアーキテクチャについて学び、Ultralytics ビジョンAIを展開します。

マルチモーダルモデルは、複数の異なるデータタイプ(モダリティ)からの情報を同時に処理・解釈・統合できる高度な人工知能(AI)システムである。従来の単一モーダルシステムが自然言語処理(NLP)やコンピュータビジョン(CV)など単一領域に特化しているのに対し、マルチモーダルモデルは視覚・聴覚・言語的手がかりを統合することで人間の知覚を模倣することを目指す。この融合により、モデルは世界を包括的に理解できるようになる。 や画像処理(コンピュータビジョン:CV)など単一領域に特化する一方、マルチモーダルモデルは視覚的・聴覚的・言語的手がかりを統合することで人間の知覚を模倣することを目指す。この融合によりモデルは世界に対する包括的な理解を構築し、視覚的場面と音声による説明の間の複雑な相関関係を導き出すことが可能となる。これらの能力は汎用人工知能(AGI)達成に向けた基礎的なステップと見なされている。

中核メカニズムとアーキテクチャ

マルチモーダルモデルの有効性は、多様なデータタイプを共通の意味空間にマッピングする能力に依存する。このプロセスは通常、埋め込みエンベディング)の作成から始まる。埋め込みとは入力データの本質的な意味を捉えた数値表現である。 字幕付き動画などのペア例からなる大規模データセットで学習させることで、 モデルは「猫」の画像のベクトル表現と「cat」という単語のテキスト埋め込みを 対応付けることを学習する。

いくつかの主要なアーキテクチャ概念がこの統合を可能にしています:

  • トランスフォーマーアーキテクチャ多くの マルチモーダルシステムはトランスフォーマーを利用しており、 これは注意機構を用いて異なる入力部分の重要性を動的に評価する。 これによりモデルは、テキストプロンプト内の関連する単語に対応する 特定の画像領域に焦点を当てることが可能となる。この概念は先駆的な研究論文 「Attention Is All You Need」で詳細に説明されている。
  • データ融合:異なる情報源からの情報を統合する戦略を指す。 センサー融合は、生データを早期に統合するか、 別々のサブモデルの決定を後期に組み合わせることで実現される。PyTorchのような現代的なフレームワークでは PyTorch は、こうした複雑なパイプラインを構築するために必要な柔軟性を提供する。
  • 対照学習: OpenAIのCLIPなどのモデルが用いる技術は、 ベクトル空間において一致するテキスト-画像ペア間の距離を最小化し、 不一致ペア間の距離を最大化するようシステムを訓練する。

実際のアプリケーション

マルチモーダルモデルは、単一モダリティシステムではこれまで不可能だった能力を実現した。

  • ビジュアル質問応答(VQA) これらのシステムは、ユーザーが画像について自然言語で質問することを可能にします。例えば、視覚障害のあるユーザーが パントリー(食品庫)の写真をアップロードし、「一番上の棚にスープの缶はありますか?」と質問する場合があります。モデルは 物体検出を用いてアイテムを識別し、自然言語処理(NLP)を用いて クエリを理解し、有用な回答を提供します。
  • 自動運転車 自動運転車はリアルタイムのマルチモーダルエージェントとして機能する。カメラからの視覚情報、LiDARからの深度情報、レーダーからの速度データを統合する。この冗長性により、天候により1つのセンサーが遮断されても、他のセンサーが道路の安全性を維持できる。
  • オープンボキャブラリ検出: Ultralytics YOLOモデルは、固定されたクラスリストではなく任意のテキストプロンプトを用いてdetect 可能にします。これは言語的コマンドと視覚認識の間のギャップを埋めるものです。

例:オープン語彙検出

次の例は ultralytics オープンボキャブラリ検出を実行するライブラリ。 モデルはテキストプロンプトを解釈し、画像内の物体を識別する:

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language text prompts
model.set_classes(["person wearing a hat", "blue backpack"])

# Run inference: The model aligns text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Visualize the detection results
results[0].show()

関連用語との区別

AI用語集において「マルチモーダルモデル」を関連概念と区別することは有益である:

  • マルチモーダル学習これは、これらのシステムを訓練するために用いられるプロセス および機械学習(ML)技術を指す。マルチモーダルモデルは、その学習プロセスから生み出される成果物またはソフトウェア製品である。
  • 大規模言語モデル(LLM) 従来のLLMはテキストのみを処理する。多くのモデルが視覚言語モデル(VLM)へと進化しつつあるが、標準的なLLMは 単一モーダルである。
  • 基盤モデルこれは 多くの下流タスクに適応可能な大規模モデルを説明するより広範なカテゴリーである。マルチモーダルモデルは しばしば基盤モデルであるが、すべての基盤モデルが複数のモダリティを扱うわけではない。

マルチモーダルAIの未来

この分野は、音声・動画・テキストの連続ストリームをリアルタイムで処理できるシステムへと急速に進化している。Google などの組織による研究は、機械知覚の限界を押し広げ続けている。Ultralytics、YOLO26のような高性能ビジョンバックボーンでこのエコシステムを支援しています。2026年にリリースされたYOLO26は、インスタンスセグメンテーションなどのタスクにおいて優れた速度と精度を提供し、大規模なマルチモーダルパイプラインにおける効率的な視覚コンポーネントとして機能します。開発者は、統合されたUltralytics を使用して、これらの複雑なワークフローのデータ管理、トレーニング、デプロイメントを管理できます。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加