AIにおけるマルチモーダル学習を探ります。Ultralytics YOLO26やYOLO-Worldのような堅牢なモデルのために、テキスト、ビジョン、オーディオをどのように統合するかを学びましょう。今すぐ詳細を発見してください!
マルチモーダル学習は、人工知能 (AI)における高度なアプローチであり、複数の異なる種類のデータ、すなわち「モダリティ」からの情報を処理、理解、関連付けるようにアルゴリズムを訓練します。翻訳のためのテキストや画像認識のためのピクセルなど、単一の入力タイプに特化した従来のシステムとは異なり、マルチモーダル学習は、視覚データ、音声、テキスト記述、センサー読み取りなどの多様な感覚入力を統合することで人間の認知を模倣します。この包括的なアプローチにより、機械学習 (ML)モデルは、より深く、文脈を認識した世界理解を深めることができ、より堅牢で汎用性の高い予測につながります。
マルチモーダル学習における中核的な課題は、異なるデータ型を、比較および結合できる共有の数学的空間に変換することです。このプロセスは通常、エンコーディング、アライメント、フュージョンの3つの主要な段階を含みます。
マルチモーダル学習は、今日の最も目覚ましいAIのブレークスルーの多くを支える原動力であり、異なるデータサイロ間のギャップを埋めて複雑な問題を解決します。
標準的な物体検出器が事前定義されたクラスに依存するのに対し、YOLOマルチモーダル手法では、 オープンボキャブラリーのテキストプロンプトdetect できます。Ultralytics テキスト概念と視覚的特徴を結びつけることの威力を示しています。
以下のpythonコードスニペットは、事前学習済みYOLO-Worldモデルを使用して、カスタムテキスト入力に基づいてオブジェクトをdetectする方法を示しています。
from ultralytics import YOLOWorld
# Load a pretrained YOLO-World model (Multi-Modal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")
# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person", "bus", "traffic light"])
# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show the results
results[0].show()
現代のAIをナビゲートするには、「マルチモーダル学習」を関連概念と区別することが役に立つ:
マルチモーダル学習の軌跡は、以下のようなシステムを指し示している。 人工知能(AGI) 特性を持つシステムへと向かっている。言語を視覚的・物理的現実に根付かせることに成功したことで、これらのモデルは統計的相関関係を超えて、真の推論へと向かっている。 真の推論へと向かっている。以下のような機関の研究 や スタンフォード基礎モデル研究センターのような機関による研究は、機械が複雑な多感覚をどのように知覚し、相互作用するかという限界を押し広げ続けている。 機械がどのように複雑な多感覚環境を認識し、相互作用するかという境界を押し広げ続けている。
Ultralytics、これらの進歩Ultralytics 統合し、ユーザーがデータ管理、モデルトレーニング、ソリューション展開を可能にしています。これにより、YOLO26の高速性からオープンボキャブラリ検出の汎用性まで、利用可能なあらゆるモダリティの全範囲を活用できます。

未来の機械学習で、新たな一歩を踏み出しましょう。