YOLO26の紹介: 次世代のビジョンAI。
Ultralytics
Ultralytics用語集に戻る

Grounding

AIにおける「Grounding(グラウンディング)」の基礎を探究します。Ultralytics YOLO26およびオープンボキャブラリー検出のためのYOLO-Worldを使用して、自然言語と視覚データを接続する方法を学びましょう。

Groundingとは、人工知能システムが、自然言語に由来する抽象的な概念を、視覚データや感覚入力といった物理世界の具体的で明確な表現に結びつける能力を指します。コンピュータビジョンの文脈では、モデルが単にテキストを処理するだけでなく、「犬を散歩させている人」といったフレーズを解釈し、画像やビデオフィード内の該当するエンティティを正確に特定できることを意味します。このプロセスは、記号推論とピクセルレベルの知覚との間のギャップを埋めるものであり、認知科学における根本的なsymbol grounding problemに対処するものです。言語トークンと視覚的特徴を結びつけることで、Groundingは現代のmultimodal AIの礎となり、機械が人間にとって動的な環境とより直感的に相互作用することを可能にします。

Link to this sectionGroundingのメカニズム#

At a technical level, grounding involves aligning data from different modalities into a shared high-dimensional vector space. Advanced architectures, often built upon the Transformer framework used in natural language processing (NLP), generate numerical representations known as embeddings for both text descriptions and visual inputs. During training, the model learns to minimize the distance between the embedding of a text prompt (e.g., "blue backpack") and the embedding of the corresponding visual region.

このアライメントにより、**Open-Vocabulary Detection(オープン語彙検出)**が可能になります。モデルが固定されたカテゴリセットに限定される従来の教師あり学習とは異なり、Groundingはzero-shot learningを実現します。Groundingされたモデルは、それらを説明する言語さえ理解していれば、トレーニング中に明示的に見たことがないオブジェクトを識別できます。この柔軟性は、これらのマルチモーダルアライメントに必要な複雑な行列演算を容易にするPyTorchのようなディープラーニングフレームワークによって支えられています。

Link to this section実社会での応用#

Grounding技術は、システムがユーザーの意図を解釈し、非構造化環境を効果的にナビゲートできるようにすることで、業界を再形成しています。

  • AI in Robotics: Groundingは、口頭での指示を実行する自律型エージェントにとって不可欠です。倉庫のロボットが「一番上の棚にあるパッケージを手に取って」と言われた場合、「パッケージ」と「一番上の棚」という概念を、視野内の特定の3D座標にGrounding(紐付け)しなければなりません。この能力はrobotics research at MIT CSAILの主要な焦点であり、ロボットが人間と安全に並行して動作することを可能にしています。
  • Semantic Search(セマンティック検索)とメディア検索: Groundingは、キーワード一致を超えた高度な検索エンジンを強化します。ユーザーは「夕暮れ時に左折するサイクリスト」のような複雑な記述でビデオアーカイブを照会でき、システムはGroundingを使用して特定のタイムスタンプを検索します。これはセキュリティやメディア管理のためのvideo understandingを大幅に向上させます。
  • 支援技術: 視覚障害のあるユーザーにとって、Groundingはアプリケーションが周囲の状況をリアルタイムで説明したり、環境に関する質問に答えたりすることを可能にします。これは音声生成にリンクされた堅牢なimage recognitionに依存しています。

Link to this sectionUltralytics YOLO-WorldによるGrounding#

Ultralyticsエコシステムは、YOLO-Worldのような専門的なアーキテクチャを通じてGroundingをサポートしています。標準モデルは特定のデータセットでのトレーニングを必要としますが、YOLO-Worldを使用すると、ユーザーはテキストプロンプトを使用してカスタム検出クラスを即座に定義できます。これにより、再トレーニングなしで自然言語入力を画像に対して効果的に「Ground(紐付け)」できます。

次の例は、ultralyticsパッケージを使用してカスタムテキスト記述に基づいてオブジェクトを検出する方法を示しています。

from ultralytics import YOLO

# Load a pre-trained YOLO-World model for open-vocabulary detection
model = YOLO("yolov8s-world.pt")

# Define custom text prompts (classes) to ground in the image
# The model maps these descriptions to visual features
model.set_classes(["person wearing hat", "blue backpack"])

# Run prediction on an image source to localize the described objects
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

Link to this sectionGroundingと関連概念の区別#

Groundingの有用性を十分に理解するためには、類似のコンピュータビジョンタスクと区別することが役立ちます。

  • vs. Object Detection: YOLO26のような最先端の従来の検出モデルは、閉じた事前定義済みのカテゴリセット(例:COCOの80クラス)からオブジェクトを識別します。Groundingはオープンエンドであり、自由形式のテキストに基づいてオブジェクトを識別します。
  • vs. Image Captioning: キャプション生成は、画像全体に対する説明文を生成します(画像 $\to$ テキスト)。Groundingは通常、その逆方向または双方向に動作し、テキスト入力に基づいて特定の視覚的要素を特定します(テキスト $\to$ 画像領域)。
  • vs. Visual Question Answering (VQA): VQAは、画像に関する特定の質問に答えることを含みます(例:「車は何色ですか?」)。Groundingは、言及されたオブジェクトの周囲にbounding boxを描画するというローカリゼーション(位置特定)ステップに具体的に焦点を当てています。

Link to this section課題と将来の展望#

進歩にもかかわらず、Groundingは依然として計算負荷が高い状態です。大規模な言語モデルをビジョンエンコーダーとアライメントするには、膨大なGPU resourcesと効率的なメモリ管理が必要であり、これはNVIDIAのようなハードウェアイノベーターが対処している課題です。さらに、モデルは言語の曖昧さに苦労する可能性があり、「bat」という言葉がスポーツ用具を指すのか動物を指すのかを解決するために、大きなcontext windowsが必要になります。

将来の開発は、ネイティブにマルチモーダルな統合基盤モデルに向かっています。Ultralytics Platformのようなツールは、これらのタスクに必要な複雑なデータセットを開発者が管理できるように進化しており、data annotationとモデルデプロイメントのための合理化されたワークフローを提供しています。これらの技術が成熟するにつれて、Groundingがエッジデバイスにシームレスに統合され、よりスマートで応答性の高いAIアプリケーションが可能になると予想されます。

Explore solutions

Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。

詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。

詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。

詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。

詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。

詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。

詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。

詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。

詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。

詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。

詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。

詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。

詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。

詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。

詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。

詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。

詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。

詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。

詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。

詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。

詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。

詳細はこちら

AIの未来を共に築き上げましょう!

機械学習の未来とともに旅を始めましょう