マルチモーダルAIと、それがテキストとビジョンを統合して文脈認識理解をどのように実現するかを探ります。今すぐUltralytics YOLO26とオープンボキャブラリーモデルの使用方法を学びましょう。
マルチモーダルAIとは、複数の異なる種類のデータ、すなわち「モダリティ」からの情報を同時に処理、解釈、統合するように設計された、人工知能 (AI)システムの高度な分類を指します。自然言語処理 (NLP)のようなテキストやコンピュータービジョン (CV)のような画像など、単一の入力ソースに特化した従来のユニモーダルシステムとは異なり、マルチモーダルAIは、多様なデータストリームを統合することで人間の知覚を模倣します。この統合には、視覚データ (画像、ビデオ) と言語データ (テキスト、音声) およびセンサー情報 (LiDAR、レーダー、熱) の組み合わせが含まれます。これらの結合された入力を活用することで、これらのモデルは、複雑な現実世界のシナリオについて、より深く、文脈を認識した理解を達成し、汎用人工知能 (AGI)の広範な能力に近づいています。
マルチモーダルAIの核となる強みは、異なるデータタイプを、比較および結合できる共有された数学的空間にマッピングする能力にあります。このプロセスには通常、エンコーディング、アライメント、フュージョンという3つの主要な段階が含まれます。
マルチモーダルAIは、単一モダリティシステムでは以前は不可能だった機能を実現し、さまざまな業界でイノベーションを推進しています。
標準的な物体検出器が事前定義されたカテゴリリストに依存するのに対し、YOLO-Worldのようなマルチモーダルアプローチでは、オープンボキャブラリテキストプロンプトを使用して物体をdetectできます。これにより、Ultralyticsエコシステム内で言語コマンドと視覚認識の間のギャップが埋まります。
次の例は ultralytics ライブラリを使って、オープン・ボキャブラリー
このモデルでは、カスタムテキスト入力に基づいてオブジェクトを検出します:
from ultralytics import YOLOWorld
# Load a pretrained YOLO-World model (Multimodal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")
# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person wearing a red hat", "blue backpack"])
# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show the results
results[0].show()
現代の機械学習の状況を理解するため、「マルチモーダルAI」を関連する概念と区別することが役立ちます。
マルチモーダルAIの軌跡は、より優れた推論能力を持つシステムへと向かっています。言語を視覚的および物理的な現実にうまく根付かせることで、これらのモデルは統計的相関を超え、真の理解へと移行しています。Google DeepMindやStanford Center for Research on Foundation Modelsのような機関からの研究は、機械が複雑な環境をどのように認識するかの限界を押し広げ続けています。
Ultralyticsでは、これらの進歩を Ultralytics Platformに統合し、ユーザーがデータ管理、モデル訓練、および利用可能なあらゆるモダリティを活用するソリューションのデプロイを可能にしています。YOLO26の速度とマルチモーダル入力の多様性を組み合わせています。
未来の機械学習で、新たな一歩を踏み出しましょう。