マルチモーダルAIを探求し、テキストと視覚を統合して文脈を認識する理解を実現する方法をご覧ください。Ultralytics とオープンボキャブラリーモデルの活用方法を今すぐ学びましょう。
マルチモーダルAIとは、複数の異なるデータ種別(モダリティ)から情報を同時に処理・解釈・統合するように設計された高度な人工知能(AI)システムを指す。単一の入力源に特化した従来の一モーダルシステム(例:テキスト向け自然言語処理(NLP)や画像向けコンピュータビジョン(CV))とは異なり、マルチモーダルAIは多様なデータストリームを統合することで人間の知覚を模倣する。この統合には、視覚データ(画像、動画)と音声データ(音声、音声認識)の組み合わせや、音声データとテキストデータの組み合わせなどが含まれる。 テキスト処理の自然言語処理(NLP)や 画像処理のコンピュータビジョン(CV)など)とは異なり、 マルチモーダルAIは多様なデータストリームを統合することで 人間の知覚を模倣します。この統合には、 視覚データ(画像、動画)と言語データ(テキスト、音声)、 感覚情報(LiDAR、レーダー、熱感知)の組み合わせが含まれます。 これらの複合入力の活用により、モデルは複雑な実世界シナリオに対するより深く文脈を認識した理解を達成し、汎用人工知能(AGI)の広範な能力に近づいている。
マルチモーダルAIの中核的な強みは、異なるデータタイプを共通の数学的空間にマッピングし、 それらを比較・統合できる点にある。このプロセスは通常、符号化、アライメント、 融合という3つの主要な段階を含む。
マルチモーダルAIは、単一モダリティシステムでは不可能だった能力を解き放ち、 様々な産業におけるイノベーションを推進している。
標準的な物体検出器が事前定義されたカテゴリリストに依存するのに対し、YOLOマルチモーダル手法では、オープンボキャブラリのテキストプロンプトを用いてdetect できます。これにより、Ultralytics 内で言語的コマンドと視覚認識の間のギャップが埋まります。
次の例は ultralytics ライブラリを使って、オープン・ボキャブラリー
このモデルでは、カスタムテキスト入力に基づいてオブジェクトを検出します:
from ultralytics import YOLOWorld
# Load a pretrained YOLO-World model (Multimodal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")
# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person wearing a red hat", "blue backpack"])
# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show the results
results[0].show()
現代の機械学習の領域をナビゲートするには、「マルチモーダルAI」を関連概念と区別することが有用である:
マルチモーダルAIの軌跡は、より高度な推論能力を備えたシステムへと向かっている。言語を視覚的・物理的現実へ効果的に結びつけることで、これらのモデルは統計的相関を超え、真の理解へと移行しつつある。Google やスタンフォード基礎モデル研究センターなどの機関による研究は、機械が複雑な環境を認識する方法の限界を押し広げ続けている。
Ultralytics、これらの進歩Ultralytics 統合し、ユーザーがデータ管理、モデルトレーニング、ソリューション展開を可能にしています。これにより、利用可能なあらゆるモダリティを最大限に活用し、YOLO26の高速性とマルチモーダル入力の汎用性を組み合わせたソリューションを実現します。