マルチモーダルAIモデルが、テキスト、画像などを統合して、現実世界のアプリケーション向けの堅牢で汎用性の高いシステムを作成する様子をご覧ください。
マルチモーダルモデルは 人工知能(AI)システム 複数の異なるデータタイプ、つまり「モダリティ」からの情報を同時に処理、解釈、統合することができる高度な人工知能(AI)システムである。 「モダリティ」と呼ばれる。単一の領域に特化した従来のユニモーダルシステムとは異なり、次のようなものである。 自然言語処理(NLP) のような単一の領域に特化した従来のユニモーダルシステムとは異なり マルチモーダルモデルは、テキスト、画像、音声、ビデオ、センサーデータを一緒に分析することができます。この収束により 視覚的な手がかりと言語的な記述との相関関係を描くことができるため、モデルはより包括的で人間のような世界の理解を発展させることができる。 視覚的な手がかりと言語的な説明との相関関係を描くことができるからだ。この能力は、将来の 人工知能(AGI) 現在、ロボット工学から自動コンテンツ作成に至るまで、さまざまな分野でイノベーションを推進している。
マルチモーダルモデルの有効性は、異なるデータタイプを共有された意味空間にマッピングする能力に依存している。 空間にマッピングする能力に依存する。このプロセスは通常 埋め込み-データの本質的な意味を捉える数値表現 を生成することから始まる。画像とキャプションのような、対になった例の膨大なデータセットで学習することにより、モデルは埋め込みを整合させることを学習する。 モデルは、「犬」の写真の埋め込みと、「犬」という単語のテキストの埋め込みを整合させることを学習する。 "犬"
この統合を可能にしたのは、主要なアーキテクチャーの革新である:
マルチモーダルモデルは、これまでシングルモダリティシステムでは不可能だった新たな機能を解き放った。
次の例は ultralytics ライブラリを使って、オープン・ボキャブラリー
このモデルでは、カスタムテキスト入力に基づいてオブジェクトを検出します:
from ultralytics import YOLOWorld
# Load a pre-trained YOLO-World model capable of vision-language tasks
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using natural language text
model.set_classes(["person wearing a red hat", "blue backpack"])
# Run inference to detect these specific visual concepts
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results
results[0].show()
AI用語集で「マルチモーダルモデル」を関連概念と区別することは重要である:
この分野は、オーディオ、ビデオ、テキストの連続ストリームをリアルタイムで処理できるモデルへと急速に進歩している。 リアルタイムでGoogle (Google DeepMind)のような組織の研究は、このようなシステムが知覚できることの限界を押し広げ続けている。 これらのシステムが認識できることの限界を押し上げ続けている。Ultralytics、当社の主力製品である YOLO11モデルは、物体の検出におけるスピードと精度の 物体の検出におけるスピードと精度の基準を確立しています。 YOLO26のようなアーキテクチャで革新しています。 エッジ・アプリケーションとクラウド・アプリケーションの両方の効率をさらに向上させます。将来的には、包括的な Ultralytics Platformは、データを管理する統一された環境を提供します、 を管理する統一された環境を提供します。


