Multimodal AI
マルチモーダル AI がコンテキストを認識した理解のためにテキストとビジョンをどのように統合するかを探ります。今すぐ Ultralytics YOLO26 とオープンボキャブラリーモデルを使用する方法を学びましょう。
マルチモーダルAIとは、複数の異なるデータ型、すなわち「モダリティ」から情報を同時に処理、解釈、統合するように設計された高度な人工知能 (AI)システムの一種を指します。テキストに対する自然言語処理 (NLP)や画像に対するコンピュータビジョン (CV)のように単一の入力ソースを専門とする従来の単一モーダル(ユニモーダル)システムとは異なり、マルチモーダルAIは多様なデータストリームを統合することで人間の知覚を模倣します。この統合には、視覚データ(画像、動画)と言語データ(テキスト、音声)やセンサー情報(LiDAR、レーダー、熱画像)の組み合わせが含まれます。これらの組み合わされた入力を活用することで、モデルは複雑な現実世界のシナリオをより深く、コンテキストを考慮した理解が可能となり、汎用人工知能 (AGI)の幅広い能力に近づいています。
Link to this sectionマルチモーダルシステムの仕組み#
マルチモーダルAIの核心的な強みは、異なるデータ型を比較・結合できる共通の数学的空間にマッピングする能力にあります。このプロセスは一般的に、エンコーディング、アライメント、フュージョンの3つの主要な段階で行われます。
-
特徴抽出: 特殊なニューラルネットワークが各モダリティを個別に処理し、主要なパターンを特定します。例えば、畳み込みニューラルネットワーク (CNN)は写真から視覚的特徴を抽出し、一方でTransformerは付属のキャプションを処理します。
-
アライメントと埋め込み: 抽出された特徴は高次元の数値ベクトルに変換されます。モデルは、意味的に類似した概念(例えば、猫の画像と「猫」というテキスト単語)がベクトル空間内で互いに近接するように、これらのベクトルをアラインさせる方法を学習します。これは多くの場合、対照学習のような技術を通じて実現されます。これはOpenAIのCLIPのようなモデルで有名に活用されている手法です。
-
データフュージョン: システムは高度なフュージョンテクニックを使用して、アラインされたデータを統合します。最新のアーキテクチャでは、アテンションメカニズムを使用してコンテキストに応じて各モダリティの重要性を動的に重み付けし、画像が曖昧な場合にモデルがテキストに集中できるようにする、あるいはその逆を可能にしています。
Link to this section実社会での応用#
マルチモーダルAIは、単一モーダルシステムでは不可能だった能力を実現し、さまざまな業界でイノベーションを促進しています。
- 視覚的質問応答 (VQA): このアプリケーションでは、ユーザーがAIに画像を提示し、それについて自然言語で質問することができます。例えば、視覚障害のあるユーザーが食品庫の写真をアップロードし、「パスタは残っている?」と尋ねることができます。モデルは視覚コンテンツとテキストクエリを処理して、具体的な回答を提供します。
- 自動運転車: 自動運転車は、カメラ、LiDAR点群、レーダーからのデータを組み合わせて安全に走行するために、マルチモーダル入力に大きく依存しています。この冗長性により、1つのセンサーが故障した場合(例:太陽のまぶしさでカメラが機能しない場合)でも、他のセンサーがSAEインターナショナル (SAE)によって定義された安全基準を維持できます。
- ヘルスケア診断: 高度な医療AIシステムは、非構造化テキストの患者履歴や遺伝子データとともに、医療画像解析(MRIやX線など)を分析します。この包括的な視点は、医師がより正確な診断を下すのを支援し、Nature Digital Medicineでも頻繁に議論されているトピックです。
- 生成AI: Stable Diffusion のようにテキストプロンプトから画像を生成するツールは、言語的な記述と視覚的なテクスチャの関係性を理解するモデルの能力に完全に依存しています。
Link to this sectionUltralyticsによるオープンボキャブラリー検出#
標準的な物体検出器は定義済みのカテゴリリストに依存していますが、YOLO-Worldのようなマルチモーダルアプローチでは、ユーザーはオープンボキャブラリーのテキストプロンプトを使用して物体を検出できます。これにより、Ultralyticsエコシステム内で言語コマンドと視覚認識の間のギャップが埋められます。
以下の例は、ultralyticsライブラリを使用してオープンボキャブラリー検出を実行する方法を示しています。このモデルは、カスタムテキスト入力に基づいて物体を検出します。
from ultralytics import YOLOWorld
# Load a pretrained YOLO-World model (Multimodal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")
# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person wearing a red hat", "blue backpack"])
# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show the results
results[0].show()Link to this section関連用語の区別#
現代の機械学習の状況を理解するには、「マルチモーダルAI」を関連概念と区別することが役立ちます。
- マルチモーダル学習: これは、混合データ型でアルゴリズムをトレーニングするための学問分野および方法論を指します。「マルチモーダルAI」は一般的に、実用的なアプリケーションまたは結果として得られるシステム自体を指します。
- 大規模言語モデル (LLM): 従来のLLMは単一モーダルであり、テキストデータのみでトレーニングされています。しかし、業界はPyTorchやTensorFlowなどのフレームワークによってサポートされている、画像とテキストをネイティブに処理できる「大規模マルチモーダルモデル」(LMM)へと移行しています。
- 専門的なビジョンモデル: Ultralytics YOLO26のような最先端のモデルは、視覚タスクにおける高度に専門化されたエキスパートです。一般的なマルチモーダルモデルがシーンを大まかに説明できる一方で、専門的なモデルは、エッジハードウェア上での高速かつ正確な物体検出やリアルタイム処理に優れています。
Link to this section今後の展望#
マルチモーダルAIの軌跡は、より高い推論能力を持つシステムへと向かっています。言語を視覚的および物理的な現実に定着させることで、これらのモデルは統計的な相関関係を超えて真の理解へと進んでいます。Google DeepMindやスタンフォード基盤モデル研究センターのような機関による研究は、機械が複雑な環境をどのように認識するかという境界を押し広げ続けています。
Ultralyticsでは、これらの進歩をUltralytics Platformに統合しています。これにより、ユーザーは利用可能なすべてのモダリティを活用し、YOLO26の速度とマルチモーダル入力の汎用性を組み合わせて、データの管理、モデルのトレーニング、およびソリューションのデプロイを行うことができます。






