Yolo 深圳
深セン
今すぐ参加
用語集

マルチモーダルモデル

マルチモーダルAIモデルが、テキスト、画像などを統合して、現実世界のアプリケーション向けの堅牢で汎用性の高いシステムを作成する様子をご覧ください。

マルチモーダルモデルは 人工知能(AI)システム 複数の異なるデータタイプ、つまり「モダリティ」からの情報を同時に処理、解釈、統合することができる高度な人工知能(AI)システムである。 「モダリティ」と呼ばれる。単一の領域に特化した従来のユニモーダルシステムとは異なり、次のようなものである。 自然言語処理(NLP) ような単一の領域に特化した従来のユニモーダルシステムとは異なり マルチモーダルモデルは、テキスト、画像、音声、ビデオ、センサーデータを一緒に分析することができます。この収束により 視覚的な手がかりと言語的な記述との相関関係を描くことができるため、モデルはより包括的で人間のような世界の理解を発展させることができる。 視覚的な手がかりと言語的な説明との相関関係を描くことができるからだ。この能力は、将来の 人工知能(AGI) 現在、ロボット工学から自動コンテンツ作成に至るまで、さまざまな分野でイノベーションを推進している。

コア・メカニズム

マルチモーダルモデルの有効性は、異なるデータタイプを共有された意味空間にマッピングする能力に依存している。 空間にマッピングする能力に依存する。このプロセスは通常 埋め込み-データの本質的な意味を捉える数値表現 を生成することから始まる。画像とキャプションのような、対になった例の膨大なデータセットで学習することにより、モデルは埋め込みを整合させることを学習する。 モデルは、「犬」の写真の埋め込みと、「犬」という単語のテキストの埋め込みを整合させることを学習する。 "犬"

この統合を可能にしたのは、主要なアーキテクチャーの革新である:

  • 変圧器アーキテクチャもともとは 論文「Attention Is All You Need」で提案された、 トランスフォーマーは、アテンション・メカニズムを利用して 異なる入力部分の重要性を動的に評価する。これにより、モデルは特定のテキストクエリを処理する際に、関連する視覚領域 に焦点を当てることができる。
  • データ・フュージョン:異なる情報源からの情報を効果的に組み合わせる必要がある。戦略には 早期フュージョン(生データの組み合わせ)から後期フュージョン(モデル決定の組み合わせ)まで。最新のフレームワーク PyTorchTensorFlowのような最新のフレームワークは これらの複雑なアーキテクチャを実装するために必要な柔軟なツールを提供する。

実際のアプリケーション

マルチモーダルモデルは、これまでシングルモダリティシステムでは不可能だった新たな機能を解き放った。

  • 視覚的質問応答(VQA) これらのシステムは画像を分析し、それに関する自然言語の質問に答えることができる。例えば、視覚障害者が と質問すると、モデルはライブ・ビデオ・フィード(視覚)と質問(テキスト)を処理し、音声応答を提供する。 と質問(テキスト)を処理し、音声応答を提供する。
  • テキストから画像へ主要な 以下のような生成的AIツール OpenAIのDALL-E 3は、説明的なテキストプロンプトを受け入れ、忠実度の高い画像を生成します 忠実度の高い画像を生成します。これには、テキストの概念がテクスチャや照明、構図などの視覚的属性にどのように変換されるかを深く理解する必要があります。 テクスチャ、照明、構図のような
  • オープンボキャブラリーオブジェクト検出:次のようなモデル Ultralytics YOLOようなモデルは、ユーザーがオブジェクトをdetect することを可能にする。 することができる。これは言語的コマンドと視覚的認識のギャップを埋めるものである。 と視覚認識とのギャップを埋める。

次の例は ultralytics ライブラリを使って、オープン・ボキャブラリー このモデルでは、カスタムテキスト入力に基づいてオブジェクトを検出します:

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model capable of vision-language tasks
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language text
model.set_classes(["person wearing a red hat", "blue backpack"])

# Run inference to detect these specific visual concepts
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results
results[0].show()

関連用語との区別

AI用語集で「マルチモーダルモデル」を関連概念と区別することは重要である:

  • マルチモーダル学習これは これらのシステムを訓練するために使用されるプロセスと機械学習技術を指す。マルチモーダルモデルとは 成功したマルチモーダル学習の結果である。
  • 大規模言語モデル(LLM) 従来のLLMはテキストのみを処理するが、その多くが視覚言語モデル(VLM)に進化している。 しかし、標準的なLLMはユニモーダルであるのに対し、マルチモーダルモデルは複数の入力タイプに対して明示的に設計されている。
  • ファンデーションモデルこれは 多くの下流タスクに適応可能な大規模モデルを表す、より広いカテゴリーである。マルチモーダルモデルは多くの場合 しかし、すべての基礎モデルがマルチモーダルであるわけではない。

マルチモーダルAIの未来

この分野は、オーディオ、ビデオ、テキストの連続ストリームをリアルタイムで処理できるモデルへと急速に進歩している。 リアルタイムでGoogle (Google DeepMind)のような組織の研究は、このようなシステムが知覚できることの限界を押し広げ続けている。 これらのシステムが認識できることの限界を押し上げ続けている。Ultralytics、当社の主力製品である YOLO11モデルは、物体の検出におけるスピードと精度の 物体の検出におけるスピードと精度の基準を確立しています。 YOLO26のようなアーキテクチャで革新しています。 エッジ・アプリケーションとクラウド・アプリケーションの両方の効率をさらに向上させます。将来的には、包括的な Ultralytics Platformは、データを管理する統一された環境を提供します、 を管理する統一された環境を提供します。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加