Yolo 深圳
深セン
今すぐ参加
用語集

マルチモーダルAI

マルチモーダルAIを探求し、テキストと視覚を統合して文脈を認識する理解を実現する方法をご覧ください。Ultralytics とオープンボキャブラリーモデルの活用方法を今すぐ学びましょう。

マルチモーダルAIとは、複数の異なるデータ種別(モダリティ)から情報を同時に処理・解釈・統合するように設計された高度な人工知能(AI)システムを指す。単一の入力源に特化した従来の一モーダルシステム(例:テキスト向け自然言語処理(NLP)や画像向けコンピュータビジョン(CV))とは異なり、マルチモーダルAIは多様なデータストリームを統合することで人間の知覚を模倣する。この統合には、視覚データ(画像、動画)と音声データ(音声、音声認識)の組み合わせや、音声データとテキストデータの組み合わせなどが含まれる。 テキスト処理の自然言語処理(NLP)画像処理のコンピュータビジョン(CV)など)とは異なり、 マルチモーダルAIは多様なデータストリームを統合することで 人間の知覚を模倣します。この統合には、 視覚データ(画像、動画)と言語データ(テキスト、音声)、 感覚情報(LiDAR、レーダー、熱感知)の組み合わせが含まれます。 これらの複合入力の活用により、モデルは複雑な実世界シナリオに対するより深く文脈を認識した理解を達成し、汎用人工知能(AGI)の広範な能力に近づいている。

マルチモーダルシステムの仕組み

マルチモーダルAIの中核的な強みは、異なるデータタイプを共通の数学的空間にマッピングし、 それらを比較・統合できる点にある。このプロセスは通常、符号化、アライメント、 融合という3つの主要な段階を含む。

  1. 特徴抽出: 各モダリティを独立して処理する特化型ニューラルネットワークが主要なパターンを識別する。例えば、 畳み込みニューラルネットワーク(CNN) が写真から視覚的特徴を抽出する一方、 トランスフォーマーが付属するキャプションを処理する。
  2. アラインメントと埋め込み 抽出された特徴は高次元の数値ベクトルに変換される。 モデルはこれらのベクトルをアラインする方法を学習し、 意味的に類似した概念(例:猫の画像とテキスト単語「cat」)が ベクトル空間内で互いに近接するように配置される。これは対比学習のような手法によって達成されることが多く、 OpenAIのCLIPなどのモデルで著名に利用されている方法である。
  3. データ融合:システムは高度な融合技術を用いて整列されたデータを統合する。 現代のアーキテクチャは注意機構を利用し、文脈に応じて各モダリティの重要度を動的に重み付けする。これにより、画像が曖昧な場合にはモデルがテキストに集中し、その逆も同様に対応可能となる。

実際のアプリケーション

マルチモーダルAIは、単一モダリティシステムでは不可能だった能力を解き放ち、 様々な産業におけるイノベーションを推進している。

  • ビジュアル質問応答(VQA) このアプリケーションでは、ユーザーがAIに画像を提示し、それに関する自然言語の質問を投げかけることができます。例えば、 視覚障害のあるユーザーがパントリーの写真をアップロードし、「パスタは残っている?」と尋ねる場合です。モデルは 視覚コンテンツとテキストクエリを処理し、具体的な回答を提供します。
  • 自動運転車 自動運転車は、安全な走行を実現するために、カメラ、LiDAR点群、レーダーからのデータを組み合わせたマルチモーダル入力に大きく依存している。この冗長性により、あるセンサーが故障した場合(例:太陽のまぶしさでカメラが機能不全に陥った場合)、他のセンサーが自動車技術会(SAE)によって定義された安全基準を維持できる。
  • 医療診断 高度な医療AIシステムは、 医療画像解析(MRIやX線など)と 非構造化テキストの患者病歴・遺伝子データを併せて分析する。 この包括的な視点により医師は より正確な診断が可能となり、 このテーマはNature Digital Medicine誌で頻繁に議論されている。
  • 生成AIテキストプロンプトから画像を生成するツール(例:Stable Diffusion)は、言語的記述と視覚的質感の関係を理解するモデルの能力に完全に依存している。

UltralUltralyticsによるオープンボキャブラリ検出

標準的な物体検出器が事前定義されたカテゴリリストに依存するのに対し、YOLOマルチモーダル手法では、オープンボキャブラリのテキストプロンプトを用いてdetect できます。これにより、Ultralytics 内で言語的コマンドと視覚認識の間のギャップが埋まります。

次の例は ultralytics ライブラリを使って、オープン・ボキャブラリー このモデルでは、カスタムテキスト入力に基づいてオブジェクトを検出します:

from ultralytics import YOLOWorld

# Load a pretrained YOLO-World model (Multimodal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")

# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person wearing a red hat", "blue backpack"])

# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

関連用語の区別

現代の機械学習の領域をナビゲートするには、「マルチモーダルAI」を関連概念と区別することが有用である:

  • マルチモーダル学習これは 混合データタイプを用いてアルゴリズムを訓練する学術分野および手法を指す。 「マルチモーダルAI」は一般的に、その実用的な応用または結果として得られるシステム自体を指す。
  • 大規模言語モデル(LLM) 従来のLLMは単一モーダルであり、テキストデータのみで訓練されます。しかし業界は、画像とテキストをネイティブに処理できる「大規模マルチモーダルモデル」(LMM)へと移行しつつあり、この傾向はPyTorchなどのフレームワークによって支えられています。 PyTorchTensorFlowなどのフレームワークによって支えられています。
  • 特殊視覚モデル:最先端Ultralytics のようなモデルは、視覚タスクにおける高度に専門化されたエキスパートです。汎用マルチモーダルモデルがシーンを大まかに描写するのに対し、特殊モデルは高速かつ精密な物体検出とエッジハードウェア上でのリアルタイム処理に優れています。

今後の展望

マルチモーダルAIの軌跡は、より高度な推論能力を備えたシステムへと向かっている。言語を視覚的・物理的現実へ効果的に結びつけることで、これらのモデルは統計的相関を超え、真の理解へと移行しつつある。Google やスタンフォード基礎モデル研究センターなどの機関による研究は、機械が複雑な環境を認識する方法の限界を押し広げ続けている。

Ultralytics、これらの進歩Ultralytics 統合し、ユーザーがデータ管理、モデルトレーニング、ソリューション展開を可能にしています。これにより、利用可能なあらゆるモダリティを最大限に活用し、YOLO26の高速性とマルチモーダル入力の汎用性を組み合わせたソリューションを実現します。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加