YOLO Vision Shenzhen
深セン
今すぐ参加
用語集

マルチモーダル学習

AIにおけるマルチモーダル学習を探ります。Ultralytics YOLO26やYOLO-Worldのような堅牢なモデルのために、テキスト、ビジョン、オーディオをどのように統合するかを学びましょう。今すぐ詳細を発見してください!

マルチモーダル学習は、人工知能 (AI)における高度なアプローチであり、複数の異なる種類のデータ、すなわち「モダリティ」からの情報を処理、理解、関連付けるようにアルゴリズムを訓練します。翻訳のためのテキストや画像認識のためのピクセルなど、単一の入力タイプに特化した従来のシステムとは異なり、マルチモーダル学習は、視覚データ、音声、テキスト記述、センサー読み取りなどの多様な感覚入力を統合することで人間の認知を模倣します。この包括的なアプローチにより、機械学習 (ML)モデルは、より深く、文脈を認識した世界理解を深めることができ、より堅牢で汎用性の高い予測につながります。

マルチモーダル学習の仕組み

マルチモーダル学習における中核的な課題は、異なるデータ型を、比較および結合できる共有の数学的空間に変換することです。このプロセスは通常、エンコーディング、アライメント、フュージョンの3つの主要な段階を含みます。

  1. 特徴抽出: 特殊なニューラルネットワークが各モダリティを独立して処理します。例えば、畳み込みニューラルネットワーク (CNN)Vision Transformer (ViT)が画像から特徴を抽出する一方で、再帰型ニューラルネットワーク (RNN)やTransformerがテキストを処理します。
  2. 埋め込みアライメント: モデルは、これらの多様な特徴を共有の高次元ベクトルにマッピングすることを学習します。この共有空間では、「猫」という単語のベクトルと猫の画像のベクトルが互いに近づけられます。OpenAIのCLIPのような論文によって普及した 対照学習などの技術がここで不可欠です。
  3. データ融合最終的に、情報を統合してタスクを実行する。融合は早期(生データの結合)、後期(最終予測の結合)、あるいは注意機構を用いて各モダリティの重要性を動的に評価する中間的なハイブリッド手法を介して行われる。

実際のアプリケーション

マルチモーダル学習は、今日の最も目覚ましいAIのブレークスルーの多くを支える原動力であり、異なるデータサイロ間のギャップを埋めて複雑な問題を解決します。

  • 視覚的質問応答(VQA) このアプリケーションでは、システムは画像を分析し、 「信号機は何色ですか?」といった自然言語の質問に回答する必要があります。 これには、モデルがテキストの意味を理解し、 コンピュータビジョンを用いて対応する視覚的要素を空間的に特定することが求められます。
  • 自律走行車: 自律走行車は、LiDAR点群、カメラ映像フィード、レーダーからのデータを組み合わせて安全に走行するため、センサーフュージョンに大きく依存しています。このマルチモーダル入力により、あるセンサーが故障した場合(例:太陽光のまぶしさでカメラが機能しなくなった場合)でも、他のセンサーが道路の安全を維持することができます。
  • 医療診断医療分野におけるAIは、 医療画像解析(MRIやX線など)と 構造化されていない患者の病歴や遺伝子データを 同時に分析するマルチモーダル学習を活用する。 この包括的な視点は医師がより正確な診断を下すのに役立ち、 Nature Digital Medicine誌で頻繁に議論されるテーマである。
  • 生成AIテキストプロンプトから画像を生成するツール(例:Stable Diffusion)は、言語的記述と視覚的質感の関係を理解するモデルの能力に完全に依存している。

Ultralyticsマルチモーダル物体検出

標準的な物体検出器が事前定義されたクラスに依存するのに対し、YOLOマルチモーダル手法では、 オープンボキャブラリーのテキストプロンプトdetect できます。Ultralytics テキスト概念と視覚的特徴を結びつけることの威力を示しています。

以下のpythonコードスニペットは、事前学習済みYOLO-Worldモデルを使用して、カスタムテキスト入力に基づいてオブジェクトをdetectする方法を示しています。

from ultralytics import YOLOWorld

# Load a pretrained YOLO-World model (Multi-Modal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")

# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person", "bus", "traffic light"])

# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

主要用語の区別

現代のAIをナビゲートするには、「マルチモーダル学習」を関連概念と区別することが役に立つ:

  • マルチモーダルモデル 「マルチモーダル学習」とは、方法論および研究分野を指す。 「マルチモーダルモデル」(GPT Googleなど)は、 その学習プロセスから生み出される具体的な成果物またはソフトウェア製品である。
  • 単一モダリティAI従来型 コンピュータビジョンは一般的に単一モダリティであり、視覚データのみに焦点を当てています。 Ultralytics モデルは物体検出における最先端のCVツールですが、 より大規模なマルチモダリティパイプラインの一部でない限り、通常は視覚入力のみを処理します。
  • 大規模言語モデル(LLM) 従来のLLMはユニモーダルであり、テキストに対してのみ学習される。しかし、業界は画像とテキストをネイティブに処理できる「大規模マルチモーダル この傾向は、以下のようなフレームワークによってサポートされている。 PyTorchTensorFlow.

今後の展望

マルチモーダル学習の軌跡は、以下のようなシステムを指し示している。 人工知能(AGI) 特性を持つシステムへと向かっている。言語を視覚的・物理的現実に根付かせることに成功したことで、これらのモデルは統計的相関関係を超えて、真の推論へと向かっている。 真の推論へと向かっている。以下のような機関の研究 や スタンフォード基礎モデル研究センターのような機関による研究は、機械が複雑な多感覚をどのように知覚し、相互作用するかという限界を押し広げ続けている。 機械がどのように複雑な多感覚環境を認識し、相互作用するかという境界を押し広げ続けている。

Ultralytics、これらの進歩Ultralytics 統合し、ユーザーがデータ管理、モデルトレーニング、ソリューション展開を可能にしています。これにより、YOLO26の高速性からオープンボキャブラリ検出の汎用性まで、利用可能なあらゆるモダリティの全範囲を活用できます。

共にAIの未来を築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。