マルチモーダルモデルがテキスト、画像、音声を統合する仕組みを探求しましょう。Ultralytics YOLO26などのアーキテクチャについて学び、Ultralytics ビジョンAIを展開します。
マルチモーダルモデルは、複数の異なるデータタイプ(モダリティ)からの情報を同時に処理・解釈・統合できる高度な人工知能(AI)システムである。従来の単一モーダルシステムが自然言語処理(NLP)やコンピュータビジョン(CV)など単一領域に特化しているのに対し、マルチモーダルモデルは視覚・聴覚・言語的手がかりを統合することで人間の知覚を模倣することを目指す。この融合により、モデルは世界を包括的に理解できるようになる。 や画像処理(コンピュータビジョン:CV)など単一領域に特化する一方、マルチモーダルモデルは視覚的・聴覚的・言語的手がかりを統合することで人間の知覚を模倣することを目指す。この融合によりモデルは世界に対する包括的な理解を構築し、視覚的場面と音声による説明の間の複雑な相関関係を導き出すことが可能となる。これらの能力は汎用人工知能(AGI)達成に向けた基礎的なステップと見なされている。
マルチモーダルモデルの有効性は、多様なデータタイプを共通の意味空間にマッピングする能力に依存する。このプロセスは通常、埋め込み(エンベディング)の作成から始まる。埋め込みとは入力データの本質的な意味を捉えた数値表現である。 字幕付き動画などのペア例からなる大規模データセットで学習させることで、 モデルは「猫」の画像のベクトル表現と「cat」という単語のテキスト埋め込みを 対応付けることを学習する。
いくつかの主要なアーキテクチャ概念がこの統合を可能にしています:
マルチモーダルモデルは、単一モダリティシステムではこれまで不可能だった能力を実現した。
次の例は ultralytics オープンボキャブラリ検出を実行するライブラリ。
モデルはテキストプロンプトを解釈し、画像内の物体を識別する:
from ultralytics import YOLOWorld
# Load a pre-trained YOLO-World model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using natural language text prompts
model.set_classes(["person wearing a hat", "blue backpack"])
# Run inference: The model aligns text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Visualize the detection results
results[0].show()
AI用語集において「マルチモーダルモデル」を関連概念と区別することは有益である:
この分野は、音声・動画・テキストの連続ストリームをリアルタイムで処理できるシステムへと急速に進化している。Google などの組織による研究は、機械知覚の限界を押し広げ続けている。Ultralytics、YOLO26のような高性能ビジョンバックボーンでこのエコシステムを支援しています。2026年にリリースされたYOLO26は、インスタンスセグメンテーションなどのタスクにおいて優れた速度と精度を提供し、大規模なマルチモーダルパイプラインにおける効率的な視覚コンポーネントとして機能します。開発者は、統合されたUltralytics を使用して、これらの複雑なワークフローのデータ管理、トレーニング、デプロイメントを管理できます。