Yolo 深圳
深セン
今すぐ参加
用語集

マルチモーダル学習

AIにおけるマルチモーダル学習の力を発見しましょう!モデルが、より豊かな現実世界の問題解決のために、多様なデータ型をどのように統合するかを探求します。

Multi-modal learning is a sophisticated approach in artificial intelligence (AI) that trains algorithms to process, understand, and correlate information from multiple distinct types of data, or "modalities." Unlike traditional systems that specialize in a single input type—such as text for translation or pixels for image recognition—multi-modal learning mimics human cognition by integrating diverse sensory inputs like visual data, spoken audio, textual descriptions, and sensor readings. This holistic approach allows machine learning (ML) models to develop a deeper, context-aware understanding of the world, leading to more robust and versatile predictions.

マルチモーダル学習の仕組み

The core challenge in multi-modal learning is translating different data types into a shared mathematical space where they can be compared and combined. This process generally involves three main stages: encoding, alignment, and fusion.

  1. Feature Extraction: Specialized neural networks process each modality independently. For instance, convolutional neural networks (CNNs) or Vision Transformers (ViTs) might extract features from images, while Recurrent Neural Networks (RNNs) or Transformers process text.
  2. Embeddings Alignment: The model learns to map these diverse features into shared high-dimensional vectors. In this shared space, the vector for the word "cat" and the vector for an image of a cat are brought close together. Techniques like contrastive learning, popularized by papers such as OpenAI's CLIP, are essential here.
  3. データ融合最終的に、情報を統合してタスクを実行する。融合は早期(生データの結合)、後期(最終予測の結合)、あるいは注意機構を用いて各モダリティの重要性を動的に評価する中間的なハイブリッド手法を介して行われる。

実際のアプリケーション

Multi-modal learning is the engine behind many of today's most impressive AI breakthroughs, bridging the gap between distinct data silos to solve complex problems.

  • 視覚的質問応答(VQA) このアプリケーションでは、システムは画像を分析し、 「信号機は何色ですか?」といった自然言語の質問に回答する必要があります。 これには、モデルがテキストの意味を理解し、 コンピュータビジョンを用いて対応する視覚的要素を空間的に特定することが求められます。
  • Autonomous Vehicles: Self-driving cars rely heavily on sensor fusion, combining data from LiDAR point clouds, camera video feeds, and radar to navigate safely. This multi-modal input ensures that if one sensor fails (e.g., a camera blinded by sun glare), others can maintain road safety.
  • 医療診断医療分野におけるAIは、 医療画像解析(MRIやX線など)と 構造化されていない患者の病歴や遺伝子データを 同時に分析するマルチモーダル学習を活用する。 この包括的な視点は医師がより正確な診断を下すのに役立ち、 Nature Digital Medicine誌で頻繁に議論されるテーマである。
  • 生成AIテキストプロンプトから画像を生成するツール(例:Stable Diffusion)は、言語的記述と視覚的質感の関係を理解するモデルの能力に完全に依存している。

Ultralyticsマルチモーダル物体検出

標準的な物体検出器が事前定義されたクラスに依存するのに対し、YOLOマルチモーダル手法では、 オープンボキャブラリーのテキストプロンプトdetect できます。Ultralytics テキスト概念と視覚的特徴を結びつけることの威力を示しています。

The following Python code snippet shows how to use a pre-trained YOLO-World model to detect objects based on custom text inputs.

from ultralytics import YOLOWorld

# Load a pretrained YOLO-World model (Multi-Modal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")

# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person", "bus", "traffic light"])

# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

主要用語の区別

現代のAIをナビゲートするには、「マルチモーダル学習」を関連概念と区別することが役に立つ:

  • マルチモーダルモデル 「マルチモーダル学習」とは、方法論および研究分野を指す。 「マルチモーダルモデル」(GPT Googleなど)は、 その学習プロセスから生み出される具体的な成果物またはソフトウェア製品である。
  • 単一モダリティAI従来型 コンピュータビジョンは一般的に単一モダリティであり、視覚データのみに焦点を当てています。 Ultralytics モデルは物体検出における最先端のCVツールですが、 より大規模なマルチモダリティパイプラインの一部でない限り、通常は視覚入力のみを処理します。
  • 大規模言語モデル(LLM) 従来のLLMはユニモーダルであり、テキストに対してのみ学習される。しかし、業界は画像とテキストをネイティブに処理できる「大規模マルチモーダル この傾向は、以下のようなフレームワークによってサポートされている。 PyTorchTensorFlow.

今後の展望

マルチモーダル学習の軌跡は、以下のようなシステムを指し示している。 人工知能(AGI) 特性を持つシステムへと向かっている。言語を視覚的・物理的現実に根付かせることに成功したことで、これらのモデルは統計的相関関係を超えて、真の推論へと向かっている。 真の推論へと向かっている。以下のような機関の研究 や スタンフォード基礎モデル研究センターのような機関による研究は、機械が複雑な多感覚をどのように知覚し、相互作用するかという限界を押し広げ続けている。 機械がどのように複雑な多感覚環境を認識し、相互作用するかという境界を押し広げ続けている。

Ultralytics、これらの進歩Ultralytics 統合し、ユーザーがデータ管理、モデルトレーニング、ソリューション展開を可能にしています。これにより、YOLO26の高速性からオープンボキャブラリ検出の汎用性まで、利用可能なあらゆるモダリティの全範囲を活用できます。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加