マルチモーダルAIを発見しましょう。これは、テキスト、画像、オーディオなどの多様なデータをシステムが処理し理解する分野です。その仕組みを学び、主要なアプリケーションを探求してください。
マルチモーダルAIとは、複数の異なるデータ種別(モダリティ)から情報を同時に処理・解釈・統合するよう設計された高度な人工知能(AI)システムを指す。単一の入力源に特化した従来の一モーダルシステム(例:テキスト向け自然言語処理(NLP)や画像向けコンピュータビジョン(CV))とは異なり、マルチモーダルAIは多様なデータストリームを統合することで人間の知覚を模倣する。 テキスト処理に特化した自然言語処理(NLP)や 画像処理に特化したコンピュータビジョン(CV)など)とは異なり、 マルチモーダルAIは多様なデータストリームを統合することで人間の知覚を模倣します。 これには、視覚データ(画像、動画)と言語データ(テキスト、音声)、感覚情報(LiDAR、レーダー、サーマル)の組み合わせが含まれる。これらの統合された入力を活用することで、これらのモデルは複雑な現実世界のシナリオに対するより深く文脈を認識した理解を達成し、汎用人工知能(AGI)の能力に近づいている。
マルチモーダルAIの力は、異なるデータタイプを共通の数学的空間にマッピングする能力にある。 このプロセスは一般的に、符号化、融合、復号化の3つの主要な段階を含む。
マルチモーダルAIは、環境の包括的な視点が必要な問題を解決することで、産業に革命をもたらしている。
マルチモーダルAIの実用例として、オープンボキャブラリ物体検出が挙げられる。これはモデルが事前学習済みのクラスリストではなく、任意のテキストプロンプトに基づいて物体を検出する手法である。Ultralytics YOLOモデルはこの能力を実証し、言語的コマンドと視覚認識の間のギャップを埋めている。
from ultralytics import YOLOWorld
# Load a pretrained YOLO-World model (Multimodal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")
# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person wearing a red hat", "blue backpack"])
# Run inference: The model aligns the text prompts with visual features in the image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Visualize the multimodal detection results
results[0].show()
「マルチモーダルAI」を関連概念と区別することは、状況をよりよく理解する上で有益である:
この分野は、個別のネットワークを組み合わせるのではなく、最初からネイティブにマルチモーダルな基盤モデルへと移行しつつある。Google などの組織による研究は、AIが世界を認識する方法の限界を押し広げ続けている。Ultralytics YOLO26のリリースは、 これらのパイプラインにおけるビジョンコンポーネントの効率性における新たな基準を打ち立て、 マルチモーダルシステムの視覚的「目」がこれまで以上に高速かつ正確であることを保証します。
