用語集

マルチモーダル学習

AIにおけるマルチモーダル学習の力を発見しましょう！モデルが、より豊かな現実世界の問題解決のために、多様なデータ型をどのように統合するかを探求します。

マルチモーダル学習は、機械学習（ML）の高度なサブフィールドである。機械学習（ML）の高度な下位分野である。モダリティと呼ばれる複数の異なるタイプのデータからの情報を処理し、理解し、相関させるように訓練される。従来のAIシステムは、言語翻訳のテキストや画像認識のピクセルなど、単一の入力タイプに焦点を当てることが多い。マルチモーダル学習は、多様な感覚を統合することでマルチモーダル学習は、視覚データ、音声、テキスト記述、センサー読み取りなどの多様な感覚入力を統合することで、人間の認知を模倣する。読み取る。この総合的なアプローチによって人工知能（AI）はより深く、より文脈を認識した世界理解が可能となり、より強固で汎用性の高い予測モデルにつながります。

マルチモーダル統合のメカニズム

マルチモーダル学習の核となる課題は、異なるタイプのデータを、比較可能な共有の数学的空間に変換することである。へと変換することである。このプロセスには通常、エンコーディング、アライメント、フュージョンという3つの主要段階が含まれる。

符号化：特殊化された神経回路網が、それぞれのモダリティを独立して処理する。例えば畳み込みニューラルネットワーク（CNN）やVision Transformer（ViT）は画像から特徴を抽出する。は画像から特徴を抽出する。リカレント・ニューラル・ネットワーク（RNN）またはトランスフォーマーはテキストを処理する。
アライメント：モデルはこれらの多様な特徴を、埋め込みと呼ばれる共有された高次元ベクトルにマッピングすることを学習する。埋め込みと呼ばれる。この共有空間ではこの共有空間では、「犬」という単語のベクトルと犬の画像のベクトルが近づけられる。例えば対照学習 OpenAIのCLIPのような論文で普及している対比学習のような技術がここでは不可欠だ。
融合：最後に、情報を統合してタスクを実行する。フュージョンは、初期（生データ最終的な予測を組み合わせる）、または中間的なハイブリッドメソッドを介して行われる。注意メカニズム各モダリティの重要性を動的に評価する注意メカニズムを使用する。

実際のアプリケーション

マルチモーダル学習は、今日の最も印象的なAIの躍進の多くを支えるエンジンであり、異なるデータのサイロ間のギャップを埋める。のギャップを埋める。

ビジュアル質問応答（VQA）：ではビジュアル質問応答（VQA）ではシステムは画像を分析し、それに関する自然言語の質問に答えなければならない。信号機は何色ですか？これには、モデルがテキストのセマンティクスを理解し、対応する視覚的要素を空間的に特定する必要がある。対応する視覚的要素を見つける必要がある。
自律走行ナビゲーション：自動運転車はセンサー・フュージョンに大きく依存している、自動運転車は、LiDARのポイントクラウド、カメラのビデオフィード、レーダーからのデータを組み合わせて安全にナビゲートします。このマルチモーダル入力により、1つのセンサーが故障しても（例えば、太陽がまぶしくてカメラが見えなくなった場合などカメラが太陽のまぶしさで見えなくなった場合など）、他のセンサーが安全を維持することができます。
ヘルスケア診断 ヘルスケアにおけるAIは、マルチモーダル学習を利用する。医療画像（MRIやX線など）を、構造化されていないテキスト化された患者の病歴や遺伝子データとともに分析することである。この包括的な視点は、医師がより正確な診断を下すのに役立つ。ネイチャー・デジタル・メディシン・ジャーナルで頻繁に取り上げられる話題である。

Ultralyticsマルチモーダル物体検出

標準的な物体検出があらかじめ定義されたクラスに依存しているのに対し、YOLO-Worldのようなマルチモーダルなアプローチでは YOLOなマルチモーダルなアプローチではオープン・ボキャブラリー・テキスト・プロンプトを使用して物体を検出することができる。これは、テキストの概念を視覚的特徴とリンクさせることの威力を示している。

from ultralytics import YOLOWorld

# Load a pretrained YOLO-World model (Multi-Modal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")

# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person", "bus", "traffic light"])

# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

主要用語の区別

現代のAIをナビゲートするには、「マルチモーダル学習」を関連概念と区別することが役に立つ：

マルチモーダルモデル 「マルチ・モーダル・ラーニング」とは、その方法論と研究分野のことである。マルチモーダルモデル"（GPT-4やGeminiのような）とは、そのトレーニングプロセスから生まれた特定の成果物やソフトウェア製品である。 成果物またはソフトウェア製品である。
コンピュータビジョン（CV）：CVは一般的に視覚データのみに焦点を当てたユニモーダルなものである。一方 Ultralytics YOLO11のようなモデルは、最先端のCVツールである。その出力が音声やテキストデータと組み合わされるとき、マルチモーダルパイプラインの一部となる。
大規模言語モデル（LLM）： 従来のLLMはユニモーダルであり、テキストに対してのみ学習される。しかし、業界は画像とテキストをネイティブに処理できる「大規模マルチモーダルこの傾向は、以下のようなフレームワークによってサポートされている。 PyTorchと TensorFlow.

今後の展望

マルチモーダル学習の軌跡は、以下のようなシステムを指し示している。人工知能（AGI）特性を持つシステムへと向かっている。言語を視覚的・物理的現実に根付かせることに成功したことで、これらのモデルは統計的相関関係を超えて、真の推論へと向かっている。真の推論へと向かっている。以下のような機関の研究やスタンフォード基礎モデル研究センターのような機関による研究は、機械が複雑な多感覚をどのように知覚し、相互作用するかという限界を押し広げ続けている。機械がどのように複雑な多感覚環境を認識し、相互作用するかという境界を押し広げ続けている。

マルチモーダル学習

Ultralytics YOLO モデルをトレーニングし、業種を問わずワークフローを効率化する

お客様のイノベーションを強化する柔軟なエンタープライズライセンスソリューション

Ultralytics YOLOAIモデルを数秒でトレーニング

マルチモーダル統合のメカニズム

実際のアプリケーション

Ultralyticsマルチモーダル物体検出

主要用語の区別

今後の展望

このカテゴリの関連記事

未来の物体検出トレンド：注目すべき7つのポイント

Ultralytics YOLO モデルによる車両再識別の強化

Ultralytics YOLO モデルによる衝突予測の向上

Ultralytics コミュニティに参加する