Yolo 深圳
深セン
今すぐ参加
用語集

マルチモーダルAI

マルチモーダルAIを発見しましょう。これは、テキスト、画像、オーディオなどの多様なデータをシステムが処理し理解する分野です。その仕組みを学び、主要なアプリケーションを探求してください。

マルチモーダルAIとは、複数の異なるデータ種別(モダリティ)から情報を同時に処理・解釈・統合するよう設計された高度な人工知能(AI)システムを指す。単一の入力源に特化した従来の一モーダルシステム(例:テキスト向け自然言語処理(NLP)や画像向けコンピュータビジョン(CV))とは異なり、マルチモーダルAIは多様なデータストリームを統合することで人間の知覚を模倣する。 テキスト処理に特化した自然言語処理(NLP)や 画像処理に特化したコンピュータビジョン(CV)など)とは異なり、 マルチモーダルAIは多様なデータストリームを統合することで人間の知覚を模倣します。 これには、視覚データ(画像、動画)と言語データ(テキスト、音声)、感覚情報(LiDAR、レーダー、サーマル)の組み合わせが含まれる。これらの統合された入力を活用することで、これらのモデルは複雑な現実世界のシナリオに対するより深く文脈を認識した理解を達成し、汎用人工知能(AGI)の能力に近づいている。

マルチモーダルシステムのコアメカニクス

マルチモーダルAIの力は、異なるデータタイプを共通の数学的空間にマッピングする能力にある。 このプロセスは一般的に、符号化、融合、復号化の3つの主要な段階を含む。

  1. 特徴抽出:各モダリティは専用のニューラルネットワーク(NN)で符号化される。例えば、畳み込みニューラルネットワーク(CNN)が画像を処理して視覚的特徴を抽出する一方、トランスフォーマーが随伴するテキストを処理する。
  2. 埋め込みとアラインメント:抽出された特徴は 埋め込み(高次元の数値ベクトル)に変換される。 モデルはこれらのベクトルをアラインメントし、 意味的に類似した概念(例:猫の写真と単語「cat」)が ベクトル空間内で互いに近接するように配置する。 これは対比学習などの手法によって達成されることが多く、OpenAIのCLIPなどのモデルで著名に利用されている。
  3. 融合:システムは融合技術を用いて整列されたデータを統合する。高度な注意機構により、モデルは文脈に応じてあるモダリティの重要性を別のモダリティに対して動的に重み付けできる。この概念は基礎論文「Attention Is All You Need」で詳述されている。

実際のアプリケーション

マルチモーダルAIは、環境の包括的な視点が必要な問題を解決することで、産業に革命をもたらしている。

  • ビジュアル質問応答(VQA) このアプリケーションは、ユーザーが自然言語を用いて画像に質問することを可能にします。例えば、視覚障害のあるユーザーが パントリーの写真を提示し、「一番上の棚にスープの缶はありますか?」と尋ねることができます。システムは 物体検出を用いてアイテムを識別し、自然言語処理(NLP)を用いて 具体的な質問を理解し、音声応答を提供します。
  • 自動運転車 自動運転車は安全な走行のためにセンサーフュージョンに依存している。 カメラからの視覚情報とLiDARからの深度データ、レーダーからの速度データを統合する。 このマルチモーダルなアプローチにより、 あるセンサーが機能不全に陥った場合(例:太陽のまぶしさでカメラが機能停止)でも、 システムはdetect 、 道路の安全性を維持できる。
  • 医療におけるAI 現代の診断ツールは、 医療画像解析(X線、MRI)と 診療記録や患者病歴などの非構造化テキストデータを統合する。 これらのモダリティを共同で分析することで、医師は より正確なリスク評価と個別化された治療計画を得られる。

UltralUltralyticsによるオープンボキャブラリ検出

マルチモーダルAIの実用例として、オープンボキャブラリ物体検出が挙げられる。これはモデルが事前学習済みのクラスリストではなく、任意のテキストプロンプトに基づいて物体を検出する手法である。Ultralytics YOLOモデルはこの能力を実証し、言語的コマンドと視覚認識の間のギャップを埋めている。

from ultralytics import YOLOWorld

# Load a pretrained YOLO-World model (Multimodal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")

# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person wearing a red hat", "blue backpack"])

# Run inference: The model aligns the text prompts with visual features in the image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Visualize the multimodal detection results
results[0].show()

主要用語の区別

「マルチモーダルAI」を関連概念と区別することは、状況をよりよく理解する上で有益である:

  • マルチモーダル学習これは 混合データタイプでアルゴリズムを訓練する学術分野およびプロセスを指す。マルチモーダルAIは この学習プロセスの実用的な応用または結果である。
  • 大規模言語モデル(LLM) 従来のLLMは単一モードであり、テキストのみを処理する。多くのモデルが視覚言語モデル(VLM)へと進化しつつあるが、 標準的なLLMは追加のアダプターなしでは本質的に視覚データを処理しない。
  • 特殊視覚モデル:Ultralytics のようなモデルは、視覚タスクにおける高度に専門化されたエキスパートです。汎用マルチモーダルモデルがシーンを大まかに記述するのに対し、特殊モデルは高速かつ精密なインスタンスセグメンテーションと、エッジハードウェア上でのリアルタイム処理に優れています。

今後の方向性

この分野は、個別のネットワークを組み合わせるのではなく、最初からネイティブにマルチモーダルな基盤モデルへと移行しつつある。Google などの組織による研究は、AIが世界を認識する方法の限界を押し広げ続けている。Ultralytics YOLO26のリリースは、 これらのパイプラインにおけるビジョンコンポーネントの効率性における新たな基準を打ち立て、 マルチモーダルシステムの視覚的「目」がこれまで以上に高速かつ正確であることを保証します。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加