Yolo 深圳
深セン
今すぐ参加
用語集

マルチモーダルAI

マルチモーダルAIを発見しましょう。これは、テキスト、画像、オーディオなどの多様なデータをシステムが処理し理解する分野です。その仕組みを学び、主要なアプリケーションを探求してください。

マルチモーダルAIとは、人工知能(AI)の高度な一分野を指す。 人工知能 複数の種類のデータを同時に処理し、解釈し、推論する。従来のユニモーダルなシステムとは異なり 単一の入力ソース(テキストのみ)に依存する従来のユニモーダルシステムとは異なり ラージ・ランゲージ・モデル(LLM)や画像のみ マルチモーダルシステムは、テキスト、画像、音声、ビデオ、センサー読み取り値などの多様なデータストリームを統合します。 このアプローチは、視覚、聴覚、言語を自然に組み合わせて環境を包括的に理解する人間の知覚を模倣している。 環境を包括的に理解する。これらの異なるモダリティを合成することで これらの異なるモダリティを合成することで、これらのシステムはより高い精度と文脈認識を達成し 人工知能(AGI)の能力に近づいている。 人工知能(AGI)である。

マルチモーダルシステムの力学

マルチモーダルシステムのアーキテクチャーは、一般に、エンコーディング、フュージョン、デコーディングの3つの異なる段階を含む。 まず、以下のような個別のニューラル・ネットワークが使われる。 畳み込みニューラルネットワーク(CNN) 視覚データには畳み込みニューラルネットワーク(CNN)、テキストデータには変換器(Transformer)を使用する、 がそれぞれの入力タイプから特徴を抽出する。これらの特徴は、エンベッディングと呼ばれる数値ベクトルに変換される。 エンベッディングと呼ばれる数値ベクトルに変換される。

重要な段階は、これらの埋め込みを共有表現空間に結合するフュージョンである。 高度な 高度な融合技術 高度な融合技術は、注意メカニズムを利用して 異なるモダリティの重要性を相対的に評価する。例えば、ビデオ解析タスクでは、モデルは次のようになる。 のようなフレームワークを使用する。 次のようなフレームワークがあります。 PyTorchTensorFlowなどのフレームワークが、これらの複雑な を提供する。

実際のアプリケーション

マルチモーダルAIは、データの全体像を把握する必要がある問題を解決することで、さまざまな分野のイノベーションを促進している。

  1. ビジュアル質問応答(VQA):このアプリケーションは 自然言語を使用する。ユーザーは冷蔵庫の写真をアップロードし、"料理に使える食材は何ですか? と尋ねる。システムは コンピュータ・ビジョン(CV)で物体を識別し 自然言語処理(NLP) クエリを理解し、応答を策定する。これは 視覚障害者のためのアクセシビリティ・ツールの開発には これは、視覚障害者のためのアクセシビリティ・ツールを開発するために不可欠である。
  2. 自律航法:自動運転車と ロボット工学はセンサーフュージョンに大きく依存している。センサーフュージョンは カメラ、LiDAR、レーダーからの入力を組み合わせて、障害物をdetect し、交通標識を読み取り、歩行者の行動を予測する。この統合 この統合により、自動車産業におけるAIの中核である動的環境における安全性と信頼性が確保される。 自動車産業におけるAI
  3. ヘルスケア診断:最新の診断ツールは 医療画像分析(X線、MRI)とテキスト化された臨床記録やゲノム・データを統合した テキスト化された臨床記録やゲノム・データと統合されている。これらのモダリティを一緒に分析することで、AIはより正確な診断と個別化された治療計画を提供することができる。 より正確な診断と個別化された治療計画を提供することができる。 ヘルスケアにおけるAI

マルチモーダルパイプラインにおけるビジョンの実装

完全なマルチモーダルモデルは複雑だが、その構成要素はアクセス可能な特殊モデルであることが多い。例えば 例えば、マルチモーダルパイプラインのビジョンコンポーネントは、多くの場合、高速物体検出器を利用します。以下は Ultralytics YOLO11を使用して、画像から視覚的概念(クラス)を抽出する例である。 画像から視覚的な概念(クラス)を抽出し、それをさらに推論するために言語モデルに送り込むことができます。

from ultralytics import YOLO

# Load a pretrained YOLO11 model for object detection
model = YOLO("yolo11n.pt")

# Run inference on an image to identify visual elements
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detected objects and their probabilities
# In a multimodal pipeline, these textual class names act as input for an LLM
for result in results:
    result.show()  # Visualize the detections
    print(result.boxes.cls)  # Print class indices

関連概念の区別

マルチモーダルAIを類似の用語と区別することは、状況をよりよく理解するのに役立つ:

  • マルチモーダル学習これは これは、様々な種類のデータから学習するためのアルゴリズムを訓練する技術的なプロセスまたは分野である。その焦点は モデルの学習中に使用される損失関数と最適化戦略 モデル学習
  • マルチモーダルモデルこれらは GPT-4oやGeminiのような)学習プロセスから得られた特定の成果物や明確なアーキテクチャ。
  • 特殊なビジョンモデル:以下のようなモデル Ultralytics YOLO11のようなモデルは特殊な専門家である。マルチモーダルモデルが マルチモーダルモデルが一般的な情景(「賑やかな通り」)を描写するのに対して、特化型モデルは正確な物体検出や オブジェクト検出と インスタンスのセグメンテーションを得意とし、正確な 座標とマスクを提供する。特殊化されたモデルは、リアルタイムタスクにおいて、より高速で効率的であることが多い。 YOLO11 RT-DETR比較

今後の方向性

この分野は、あらゆるモダリティをシームレスに生成・理解できるシステムへと急速に進化している。研究 Google OpenAIなどの研究機関は 基礎モデルの限界に挑戦している。 潜在的な空間。

Ultralytics、このエコシステムのビジョンコンポーネントを継続的に進化させています。今度の YOLO26は、将来のマルチモーダル・アプリケーションのための堅牢なビジュアル・バックボーンとして、より高い効率性と精度を提供するよう設計されています。 を提供し、将来のマルチモーダル・アプリケーションのための堅牢なビジュアル・バックボーンとして機能するように設計されています。これらの機能の活用に興味のあるユーザーは これらの機能の活用に関心のあるユーザーは LangChainのようなツールとの統合 のようなツールとの統合を検討し、独自の複雑な推論システムを構築することができる。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加