Yolo 深圳
深セン
今すぐ参加
用語集

マルチモーダル学習

AIにおけるマルチモーダル学習の力を発見しましょう!モデルが、より豊かな現実世界の問題解決のために、多様なデータ型をどのように統合するかを探求します。

マルチモーダル学習は、機械学習(ML)の高度なサブフィールドである。 機械学習(ML)の高度な下位分野である。 モダリティと呼ばれる複数の異なるタイプのデータからの情報を処理し、理解し、相関させるように訓練される。 従来のAIシステムは、言語翻訳のテキストや画像認識のピクセルなど、単一の入力タイプに焦点を当てることが多い。 マルチモーダル学習は、多様な感覚を統合することで マルチモーダル学習は、視覚データ、音声、テキスト記述、センサー読み取りなどの多様な感覚入力を統合することで、人間の認知を模倣する。 読み取る。この総合的なアプローチによって 人工知能(AI)は より深く、より文脈を認識した世界理解が可能となり、より強固で汎用性の高い予測モデルにつながります。

マルチモーダル統合のメカニズム

マルチモーダル学習の核となる課題は、異なるタイプのデータを、比較可能な共有の数学的空間に変換することである。 へと変換することである。このプロセスには通常、エンコーディング、アライメント、フュージョンという3つの主要段階が含まれる。

  1. 符号化:特殊化された神経回路網が、それぞれのモダリティを独立して処理する。例えば 畳み込みニューラルネットワーク(CNN)Vision Transformer(ViT)は画像から特徴を抽出する。 は画像から特徴を抽出する。 リカレント・ニューラル・ネットワーク(RNN)または トランスフォーマーはテキストを処理する。
  2. アライメント:モデルはこれらの多様な特徴を、埋め込みと呼ばれる共有された高次元ベクトルにマッピングすることを学習する。 埋め込みと呼ばれる。この共有空間では この共有空間では、「犬」という単語のベクトルと犬の画像のベクトルが近づけられる。例えば 対照学習 OpenAIのCLIPのような論文で普及している対比学習のような技術がここでは不可欠だ。
  3. 融合:最後に、情報を統合してタスクを実行する。フュージョンは、初期(生データ 最終的な予測を組み合わせる)、または中間的なハイブリッドメソッドを介して行われる。 注意メカニズム 各モダリティの重要性を動的に評価する注意メカニズムを使用する。

実際のアプリケーション

マルチモーダル学習は、今日の最も印象的なAIの躍進の多くを支えるエンジンであり、異なるデータのサイロ間のギャップを埋める。 のギャップを埋める。

  • ビジュアル質問応答(VQA):では ビジュアル質問応答(VQA)では システムは画像を分析し、それに関する自然言語の質問に答えなければならない。 信号機は何色ですか?これには、モデルがテキストのセマンティクスを理解し、対応する視覚的要素を空間的に特定する必要がある。 対応する視覚的要素を見つける必要がある。
  • 自律走行ナビゲーション:自動運転車は センサー・フュージョンに大きく依存している、 自動運転車は、LiDARのポイントクラウド、カメラのビデオフィード、レーダーからのデータを組み合わせて安全にナビゲートします。このマルチモーダル入力により、1つのセンサーが故障しても(例えば、太陽がまぶしくてカメラが見えなくなった場合など カメラが太陽のまぶしさで見えなくなった場合など)、他のセンサーが安全を維持することができます。
  • ヘルスケア診断 ヘルスケアにおけるAIは、マルチモーダル学習を利用する。 医療画像(MRIやX線など)を、構造化されていないテキスト化された患者の病歴や遺伝子データとともに分析することである。 この包括的な視点は、医師がより正確な診断を下すのに役立つ。 ネイチャー・デジタル・メディシン・ジャーナルで頻繁に取り上げられる話題である。

Ultralyticsマルチモーダル物体検出

標準的な物体検出があらかじめ定義されたクラスに依存しているのに対し、YOLO-Worldのようなマルチモーダルなアプローチでは YOLOなマルチモーダルなアプローチでは オープン・ボキャブラリー・テキスト・プロンプトを使用して物体を検出することができる。これは、テキストの概念を視覚的特徴とリンクさせることの威力を示している。

from ultralytics import YOLOWorld

# Load a pretrained YOLO-World model (Multi-Modal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")

# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person", "bus", "traffic light"])

# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

主要用語の区別

現代のAIをナビゲートするには、「マルチモーダル学習」を関連概念と区別することが役に立つ:

  • マルチモーダルモデル 「マルチ・モーダル・ラーニング」とは、その方法論と研究分野のことである。マルチモーダル モデル"(GPT-4やGeminiのような)とは、そのトレーニングプロセスから生まれた特定の成果物やソフトウェア製品である。 成果物またはソフトウェア製品である。
  • コンピュータビジョン(CV)CVは 一般的に視覚データのみに焦点を当てたユニモーダルなものである。一方 Ultralytics YOLO11のようなモデルは、最先端のCVツールである。 その出力が音声やテキストデータと組み合わされるとき、マルチモーダルパイプラインの一部となる。
  • 大規模言語モデル(LLM) 従来のLLMはユニモーダルであり、テキストに対してのみ学習される。しかし、業界は画像とテキストをネイティブに処理できる「大規模マルチモーダル この傾向は、以下のようなフレームワークによってサポートされている。 PyTorchTensorFlow.

今後の展望

マルチモーダル学習の軌跡は、以下のようなシステムを指し示している。 人工知能(AGI) 特性を持つシステムへと向かっている。言語を視覚的・物理的現実に根付かせることに成功したことで、これらのモデルは統計的相関関係を超えて、真の推論へと向かっている。 真の推論へと向かっている。以下のような機関の研究 や スタンフォード基礎モデル研究センターのような機関による研究は、機械が複雑な多感覚をどのように知覚し、相互作用するかという限界を押し広げ続けている。 機械がどのように複雑な多感覚環境を認識し、相互作用するかという境界を押し広げ続けている。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加