AIにおけるグラウンディングの基礎を探求します。Ultralytics YOLO26 と YOLO-World を使用して、自然言語を視覚データに接続し、オープンボキャブラリー detect を実現する方法を学びましょう。
グランディングとは、人工知能システムが、通常自然言語から派生した抽象的な概念を、視覚データや感覚入力などの物理世界における具体的で具体的な表現に結びつける能力を指します。コンピュータービジョンの文脈では、これはモデルが単にテキストを処理するだけでなく、「犬を散歩させている人」のようなフレーズを解析し、画像やビデオフィード内でそれらのエンティティを正確に特定できることを意味します。このプロセスは、記号的推論とピクセルレベルの知覚の間のギャップを埋め、認知科学における根本的な記号接地問題に対処します。言語トークンを視覚的特徴にリンクさせることで、グランディングは現代のマルチモーダルAIの基礎となり、機械が動的な人間環境とより直感的に対話できるようにします。
技術的なレベルでは、グラウンディングとは、異なるモダリティからのデータを共有の高次元ベクトル空間にアラインメントすることです。自然言語処理(NLP)で使用されるTransformerフレームワークに基づいて構築されることが多い高度なアーキテクチャは、テキスト記述と視覚入力の両方に対して埋め込み(embeddings)として知られる数値表現を生成します。トレーニング中、モデルはテキストプロンプト(例:「青いバックパック」)の埋め込みと、対応する視覚領域の埋め込みとの間の距離を最小限に抑えることを学習します。
このアライメントにより、オープンボキャブラリー検出が可能になります。モデルが固定されたカテゴリセットに限定される従来の教師あり学習とは異なり、グラウンディングはゼロショット学習を可能にします。グラウンディングされたモデルは、それらを記述する言語を理解していれば、トレーニング中に明示的に見たことのない物体を識別できます。この柔軟性は、これらのマルチモーダルアライメントに必要な複雑な行列演算を容易にするPyTorchのような深層学習フレームワークによってサポートされています。
グランディング技術は、システムがユーザーの意図を解釈し、非構造化環境を効果的にナビゲートできるようにすることで、業界を再構築しています。
Ultralyticsエコシステムは、YOLO-Worldのような特殊なアーキテクチャを通じてグラウンディングをサポートします。標準モデルが特定のデータセットでのトレーニングを必要とするのに対し、YOLO-Worldはテキストプロンプトを使用してカスタムのdetectクラスを即座に定義することを可能にします。これにより、再トレーニングなしで自然言語入力を画像に効果的に「グラウンディング」します。
次の例は ultralytics カスタムテキスト記述に基づくdetect パッケージ:
from ultralytics import YOLO
# Load a pre-trained YOLO-World model for open-vocabulary detection
model = YOLO("yolov8s-world.pt")
# Define custom text prompts (classes) to ground in the image
# The model maps these descriptions to visual features
model.set_classes(["person wearing hat", "blue backpack"])
# Run prediction on an image source to localize the described objects
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
グラウンディングの有用性を完全に理解するには、類似のコンピュータービジョンタスクと区別することが役立ちます。
進歩にもかかわらず、グラウンディングは依然として計算負荷が高いです。大規模言語モデルをビジョンエンコーダーと連携させるには、かなりのGPUリソースと効率的なメモリ管理が必要であり、これはNVIDIAのようなハードウェアイノベーターによってしばしば対処される課題です。さらに、モデルは言語の曖昧さに苦しむことがあり、「bat」という単語がスポーツ用具を指すのか、動物を指すのかを解決するために、大きなコンテキストウィンドウを必要とします。
将来の開発は、ネイティブにマルチモーダルな統合基盤モデルへと移行しています。Ultralytics Platformのようなツールは、これらのタスクに必要な複雑なデータセットを開発者が管理できるよう進化しており、データアノテーションとモデルデプロイメントのための合理化されたワークフローを提供します。これらの技術が成熟するにつれて、グラウンディングがエッジデバイスにシームレスに統合され、よりスマートで応答性の高いAIアプリケーションが可能になることが期待されます。

未来の機械学習で、新たな一歩を踏み出しましょう。