AIにおけるマルチモーダル学習の力を発見しましょう!モデルが、より豊かな現実世界の問題解決のために、多様なデータ型をどのように統合するかを探求します。
マルチモーダル学習は、機械学習(ML)の高度なサブフィールドである。 機械学習(ML)の高度な下位分野である。 モダリティと呼ばれる複数の異なるタイプのデータからの情報を処理し、理解し、相関させるように訓練される。 従来のAIシステムは、言語翻訳のテキストや画像認識のピクセルなど、単一の入力タイプに焦点を当てることが多い。 マルチモーダル学習は、多様な感覚を統合することで マルチモーダル学習は、視覚データ、音声、テキスト記述、センサー読み取りなどの多様な感覚入力を統合することで、人間の認知を模倣する。 読み取る。この総合的なアプローチによって 人工知能(AI)は より深く、より文脈を認識した世界理解が可能となり、より強固で汎用性の高い予測モデルにつながります。
マルチモーダル学習の核となる課題は、異なるタイプのデータを、比較可能な共有の数学的空間に変換することである。 へと変換することである。このプロセスには通常、エンコーディング、アライメント、フュージョンという3つの主要段階が含まれる。
マルチモーダル学習は、今日の最も印象的なAIの躍進の多くを支えるエンジンであり、異なるデータのサイロ間のギャップを埋める。 のギャップを埋める。
標準的な物体検出があらかじめ定義されたクラスに依存しているのに対し、YOLO-Worldのようなマルチモーダルなアプローチでは YOLOなマルチモーダルなアプローチでは オープン・ボキャブラリー・テキスト・プロンプトを使用して物体を検出することができる。これは、テキストの概念を視覚的特徴とリンクさせることの威力を示している。
from ultralytics import YOLOWorld
# Load a pretrained YOLO-World model (Multi-Modal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")
# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person", "bus", "traffic light"])
# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show the results
results[0].show()
現代のAIをナビゲートするには、「マルチモーダル学習」を関連概念と区別することが役に立つ:
マルチモーダル学習の軌跡は、以下のようなシステムを指し示している。 人工知能(AGI) 特性を持つシステムへと向かっている。言語を視覚的・物理的現実に根付かせることに成功したことで、これらのモデルは統計的相関関係を超えて、真の推論へと向かっている。 真の推論へと向かっている。以下のような機関の研究 や スタンフォード基礎モデル研究センターのような機関による研究は、機械が複雑な多感覚をどのように知覚し、相互作用するかという限界を押し広げ続けている。 機械がどのように複雑な多感覚環境を認識し、相互作用するかという境界を押し広げ続けている。


