YOLO Vision 2025にご期待ください!
2025年9月25日
10:00 — 18:00(英国夏時間)
ハイブリッドイベント
Yolo Vision 2024
用語集

グラウンディング

AIにおけるグラウンディングが、抽象的な概念を実世界のデータにどのように結びつけ、動的なアプリケーションにおけるコンテキスト、精度、信頼性を高めるかをご覧ください。

Grounding(グラウンディング)とは、人工知能におけるタスクの一つで、自然言語で表現された概念を、他のモダリティ(特に画像や動画などの視覚データ)内の対応するデータに接続(または「グラウンディング」)することを指します。簡単に言うと、「フリスビーをキャッチする犬」のようなフレーズが、特定の写真の中で何を指しているのかを機械に理解させることです。これは、言語的な記述を知覚世界における特定のオブジェクト、属性、および関係に結び付けることによって、単純な認識を超越します。Groundingは、抽象的な言語と具体的な感覚入力を橋渡しし、より人間らしい方法で世界と対話できるAIシステムを構築するための重要な機能です。これは、マルチモーダルモデルの重要な要素であり、自然言語処理(NLP)コンピュータビジョン(CV)の両方を統合します。

Groundingはどのように機能しますか?

Groundingモデルは、画像とテキストによる説明文のペアからなる大規模なデータセットで学習されます。これらの説明文には、画像内の特定の領域やオブジェクトにリンクされた詳細なフレーズが含まれていることが多く、バウンディングボックスで定義されることもあります。通常、Transformerベースのアーキテクチャを使用するモデルは、テキストと画像の両方に対して、豊富な数値表現、つまり埋め込み(embeddings)を作成することを学習します。次に、これらの埋め込みを調整し、「右側の高い建物」というフレーズの表現が、画像内の対応するピクセル領域の表現と密接に一致するように学習します。このプロセスは、シンボルグラウンディング問題(記号(単語)がどのように意味を獲得するかに関する哲学的および技術的な課題)にとって不可欠です。YOLO-Worldのような最新のモデルは、Groundingの原則の実用的な応用であるオープンボキャブラリ検出を先駆的に行っています。

実際のアプリケーション

Grounding(グラウンディング)は、視覚シーンのニュアンスを理解する必要がある高度なアプリケーションを可能にします。

  • インタラクティブロボティクス:ロボット工学では、グラウンディングにより、ロボットは自然言語コマンドに従うことができます。たとえば、ユーザーは倉庫ロボットに「大きい青い箱の後ろにある小さい赤い箱を拾う」ように指示できます。ロボットのAIは、タスクを正しく実行するために、オブジェクト、属性(小さい、赤い、大きい、青い)、および空間的関係(後ろ)を理解して、このフレーズ全体をグラウンディングする必要があります。これは、製造自動化からヘルスケアの支援ロボットまで、アプリケーションにとって重要です。
  • Visual Question Answering(VQA)と画像検索: システムに「消火栓の隣に駐車している車の色は何色ですか?」と質問すると、まず「車」と「消火栓」というフレーズをグラウンディングして、画像内でそれらを見つける必要があります。その後、車の色を識別して質問に答えることができます。これにより、より直感的で強力なセマンティック検索ツールが実現し、より役立つバーチャルアシスタントの開発が促進されます。

関連概念との区別

グラウンディングを他のコンピュータビジョンタスクと区別することが重要です。

  • 物体検出: 標準的な物体検出は、固定された語彙から、事前定義されたクラス(例:「人」、「自転車」)のインスタンスを識別します。対照的に、グラウンディングはオープンボキャブラリタスクです。標準的な検出器では処理できない、「晴れた日に自転車に乗っている人」のような自由形式の記述的な自然言語に基づいてオブジェクトを特定します。
  • セマンティックセグメンテーション: このタスクは、画像内のすべてのピクセルにクラスラベルを割り当てます(例:すべてのピクセルを「空」、「道路」、「木」としてラベル付けします)。グラウンディングはより焦点を絞っており、テキストプロンプトで説明されている特定のオブジェクトまたは領域のみを分離します。これは、インスタンスセグメンテーションの一種である指示表現セグメンテーションと呼ばれるサブタスクに密接に関連しています。

課題と今後の方向性

堅牢なグラウンディングモデルの開発には、いくつかの課題があります。人間言語に内在する曖昧さと豊かさをモデル化することは困難です。必要な大規模で正確なアノテーション付きデータセットを作成するには、コストと手間がかかります。例としては、RefCOCOのようなデータセットがあります。さらに、これらの複雑なモデルをトレーニングするために必要な計算リソースは膨大になる可能性があり、多くの場合、分散トレーニングまたは大規模なクラウドトレーニングが必要です。リアルタイム推論のためにモデルを効率的に実行できるようにすることも、もう1つの重要なハードルです。

今後の研究は、arXivのようなプラットフォームで公開されることが多く、未知のオブジェクト記述への一般化を改善するために、ゼロショット学習のような手法を通じてパフォーマンスを向上させることに重点を置いています。Allen Institute for AI(AI2)のような組織が、これらの分野を積極的に研究しています。グラウンディング技術が成熟するにつれて、より自然な人間とAIのコラボレーションが可能になり、AIシステムは、世界を真に理解し、それに基づいて行動できるようになります。

Ultralyticsコミュニティに参加しませんか?

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加
クリップボードにコピーしました