YOLO Vision Shenzhen
深セン
今すぐ参加
用語集

マルチモーダルAI

マルチモーダルAIと、それがテキストとビジョンを統合して文脈認識理解をどのように実現するかを探ります。今すぐUltralytics YOLO26とオープンボキャブラリーモデルの使用方法を学びましょう。

マルチモーダルAIとは、複数の異なる種類のデータ、すなわち「モダリティ」からの情報を同時に処理、解釈、統合するように設計された、人工知能 (AI)システムの高度な分類を指します。自然言語処理 (NLP)のようなテキストやコンピュータービジョン (CV)のような画像など、単一の入力ソースに特化した従来のユニモーダルシステムとは異なり、マルチモーダルAIは、多様なデータストリームを統合することで人間の知覚を模倣します。この統合には、視覚データ (画像、ビデオ) と言語データ (テキスト、音声) およびセンサー情報 (LiDAR、レーダー、熱) の組み合わせが含まれます。これらの結合された入力を活用することで、これらのモデルは、複雑な現実世界のシナリオについて、より深く、文脈を認識した理解を達成し、汎用人工知能 (AGI)の広範な能力に近づいています。

マルチモーダルシステムはどのように機能するか

マルチモーダルAIの核となる強みは、異なるデータタイプを、比較および結合できる共有された数学的空間にマッピングする能力にあります。このプロセスには通常、エンコーディング、アライメント、フュージョンという3つの主要な段階が含まれます。

  1. 特徴抽出: 特殊なニューラルネットワークが各モダリティを独立して処理し、主要なパターンを識別します。例えば、畳み込みニューラルネットワーク (CNN)が写真から視覚的特徴を抽出する一方で、Transformerが付属のキャプションを処理するといった具合です。
  2. アライメントと埋め込み: 抽出された特徴は、高次元の数値ベクトルに変換されます。モデルは、意味的に類似した概念(例:猫の画像と「猫」というテキストワード)がベクトル空間内で互いに近くに配置されるように、これらのベクトルをアライメントすることを学習します。これは、対照学習のような手法によって達成されることが多く、OpenAIのCLIPのようなモデルで有名に利用されている手法です。
  3. データ融合: システムは、高度な融合技術を使用して、アラインされたデータをマージします。現代のアーキテクチャは、アテンションメカニズムを使用して、コンテキストに応じてあるモダリティの重要性を動的に重み付けし、画像が曖昧な場合はテキストに、その逆の場合は画像にモデルが焦点を合わせることを可能にします。

実際のアプリケーション

マルチモーダルAIは、単一モダリティシステムでは以前は不可能だった機能を実現し、さまざまな業界でイノベーションを推進しています。

  • Visual Question Answering(VQA): このアプリケーションでは、ユーザーはAIに画像を提示し、それについて自然言語で質問することができます。例えば、視覚障害のあるユーザーが食料庫の写真をアップロードし、「パスタはまだ残っていますか?」と尋ねることができます。モデルは視覚コンテンツとテキストクエリを処理して、特定の回答を提供します。
  • 自律走行車: 自律走行車は、カメラ、LiDAR点群、レーダーからのデータを組み合わせて安全に走行するため、マルチモーダル入力に大きく依存しています。この冗長性により、あるセンサーが故障した場合(例:太陽光のまぶしさでカメラが機能しなくなった場合)でも、他のセンサーがSociety of Automotive Engineers (SAE)によって定義された安全基準を維持することができます。
  • ヘルスケア診断: 高度な医療AIシステムは、医用画像解析(MRIやX線など)と非構造化された患者の病歴テキストや遺伝子データを組み合わせて分析します。この包括的な視点は、医師がより正確な診断を下すのに役立ち、Nature Digital Medicineで頻繁に議論されるトピックです。
  • 生成AIテキストプロンプトから画像を生成するツール(例:Stable Diffusion)は、言語的記述と視覚的質感の関係を理解するモデルの能力に完全に依存している。

UltralUltralyticsによるオープンボキャブラリ検出

標準的な物体検出器が事前定義されたカテゴリリストに依存するのに対し、YOLO-Worldのようなマルチモーダルアプローチでは、オープンボキャブラリテキストプロンプトを使用して物体をdetectできます。これにより、Ultralyticsエコシステム内で言語コマンドと視覚認識の間のギャップが埋まります。

次の例は ultralytics ライブラリを使って、オープン・ボキャブラリー このモデルでは、カスタムテキスト入力に基づいてオブジェクトを検出します:

from ultralytics import YOLOWorld

# Load a pretrained YOLO-World model (Multimodal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")

# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person wearing a red hat", "blue backpack"])

# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

関連用語の区別

現代の機械学習の状況を理解するため、「マルチモーダルAI」を関連する概念と区別することが役立ちます。

  • マルチモーダル学習: これは、混合データ型でアルゴリズムを訓練する学術分野および手法を指します。「マルチモーダルAI」は、一般的にその実用的な応用または結果として得られるシステムそのものを指します。
  • 大規模言語モデル (LLM): 従来のLLMはユニモーダルであり、テキストデータのみで訓練されていました。しかし、業界は画像とテキストをネイティブに処理できる「大規模マルチモーダルモデル」(LMM)へと移行しており、これはPyTorchTensorFlowのようなフレームワークによってサポートされているトレンドです。
  • 特化型ビジョンモデル: 最先端のUltralytics YOLO26のようなモデルは、視覚タスクに特化した高度なエキスパートです。汎用マルチモーダルモデルがシーンを広範に記述するのに対し、特化型モデルは高速かつ正確なobject detectionとエッジハードウェアでのリアルタイム処理に優れています。

今後の展望

マルチモーダルAIの軌跡は、より優れた推論能力を持つシステムへと向かっています。言語を視覚的および物理的な現実にうまく根付かせることで、これらのモデルは統計的相関を超え、真の理解へと移行しています。Google DeepMindStanford Center for Research on Foundation Modelsのような機関からの研究は、機械が複雑な環境をどのように認識するかの限界を押し広げ続けています。

Ultralyticsでは、これらの進歩を Ultralytics Platformに統合し、ユーザーがデータ管理、モデル訓練、および利用可能なあらゆるモダリティを活用するソリューションのデプロイを可能にしています。YOLO26の速度とマルチモーダル入力の多様性を組み合わせています。

共にAIの未来を築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。