Yolo 深圳
深セン
今すぐ参加
用語集

マルチモーダル学習

AIにおけるマルチモーダル学習を探求しましょう。Ultralytics やYOLOのような堅牢なモデルが、テキスト、視覚、音声データをどのように統合しているかを学びます。今すぐ詳細をご覧ください!

マルチモーダル学習は、人工知能(AI)における高度な手法であり、複数の異なるデータタイプ(モダリティ)から情報を処理・理解・関連付けるアルゴリズムを訓練する。 翻訳用のテキストや画像認識用のピクセルなど、単一の入力タイプに特化する従来のシステムとは異なり、マルチモーダル学習は視覚データ、音声、テキスト記述、センサー読み取り値といった多様な感覚入力を統合することで人間の認知を模倣します。この包括的アプローチにより、機械学習(ML)モデルは世界に対するより深く文脈を認識した理解を発展させ、より堅牢で汎用性の高い予測を実現します。

マルチモーダル学習の仕組み

マルチモーダル学習における中核的な課題は、異なるデータタイプを共通の数学的空間に変換し、 それらを比較・統合できるようにすることである。このプロセスは一般的に、符号化、アライメント、融合という三つの主要な段階を含む。

  1. 特徴抽出 各モダリティは専用のニューラルネットワークで独立して処理される。例えば、 畳み込みニューラルネットワーク(CNN) やビジョントランスフォーマー(ViT)が 画像から特徴を抽出する一方、 リカレントニューラルネットワーク(RNN)や トランスフォーマーがテキストを処理する。
  2. 埋め込みの整合性モデルは これらの多様な特徴を共有の高次元ベクトルへマッピングすることを学習する。この共有空間において、 単語「猫」のベクトルと猫の画像のベクトルは互いに近接する。OpenAIのCLIPなどの論文で普及した 対照学習のような技術が、ここで不可欠である。
  3. データ融合最終的に、情報を統合してタスクを実行する。融合は早期(生データの結合)、後期(最終予測の結合)、あるいは注意機構を用いて各モダリティの重要性を動的に評価する中間的なハイブリッド手法を介して行われる。

実際のアプリケーション

マルチモーダル学習は、今日の最も印象的なAIのブレークスルーの多くを支える原動力であり、 異なるデータサイロ間の隔たりを埋めて複雑な問題を解決する。

  • 視覚的質問応答(VQA) このアプリケーションでは、システムは画像を分析し、 「信号機は何色ですか?」といった自然言語の質問に回答する必要があります。 これには、モデルがテキストの意味を理解し、 コンピュータビジョンを用いて対応する視覚的要素を空間的に特定することが求められます。
  • 自動運転車 自動運転車は、安全な走行を実現するために、LiDAR点群データ、カメラ映像、レーダーからの情報を統合するセンサーフュージョンに大きく依存している。このマルチモーダル入力により、あるセンサーが故障した場合(例:太陽のまぶしさでカメラが機能不全に陥った場合)、他のセンサーが道路の安全性を維持できる。
  • 医療診断医療分野におけるAIは、 医療画像解析(MRIやX線など)と 構造化されていない患者の病歴や遺伝子データを 同時に分析するマルチモーダル学習を活用する。 この包括的な視点は医師がより正確な診断を下すのに役立ち、 Nature Digital Medicine誌で頻繁に議論されるテーマである。
  • 生成AIテキストプロンプトから画像を生成するツール(例:Stable Diffusion)は、言語的記述と視覚的質感の関係を理解するモデルの能力に完全に依存している。

Ultralyticsマルチモーダル物体検出

標準的な物体検出器が事前定義されたクラスに依存するのに対し、YOLOマルチモーダル手法では、 オープンボキャブラリーのテキストプロンプトdetect できます。Ultralytics テキスト概念と視覚的特徴を結びつけることの威力を示しています。

以下のPython スニペットは、事前学習済みYOLOモデルを使用して、カスタムテキスト入力に基づいてdetect 方法を示しています。

from ultralytics import YOLOWorld

# Load a pretrained YOLO-World model (Multi-Modal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")

# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person", "bus", "traffic light"])

# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

主要用語の区別

現代のAIをナビゲートするには、「マルチモーダル学習」を関連概念と区別することが役に立つ:

  • マルチモーダルモデル 「マルチモーダル学習」とは、方法論および研究分野を指す。 「マルチモーダルモデル」(GPT Googleなど)は、 その学習プロセスから生み出される具体的な成果物またはソフトウェア製品である。
  • 単一モダリティAI従来型 コンピュータビジョンは一般的に単一モダリティであり、視覚データのみに焦点を当てています。 Ultralytics モデルは物体検出における最先端のCVツールですが、 より大規模なマルチモダリティパイプラインの一部でない限り、通常は視覚入力のみを処理します。
  • 大規模言語モデル(LLM) 従来のLLMはユニモーダルであり、テキストに対してのみ学習される。しかし、業界は画像とテキストをネイティブに処理できる「大規模マルチモーダル この傾向は、以下のようなフレームワークによってサポートされている。 PyTorchTensorFlow.

今後の展望

マルチモーダル学習の軌跡は、以下のようなシステムを指し示している。 人工知能(AGI) 特性を持つシステムへと向かっている。言語を視覚的・物理的現実に根付かせることに成功したことで、これらのモデルは統計的相関関係を超えて、真の推論へと向かっている。 真の推論へと向かっている。以下のような機関の研究 や スタンフォード基礎モデル研究センターのような機関による研究は、機械が複雑な多感覚をどのように知覚し、相互作用するかという限界を押し広げ続けている。 機械がどのように複雑な多感覚環境を認識し、相互作用するかという境界を押し広げ続けている。

Ultralytics、これらの進歩Ultralytics 統合し、ユーザーがデータ管理、モデルトレーニング、ソリューション展開を可能にしています。これにより、YOLO26の高速性からオープンボキャブラリ検出の汎用性まで、利用可能なあらゆるモダリティの全範囲を活用できます。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加