用語集

接地

AIを基礎とすることで、抽象的な概念を実世界のデータと結びつけ、動的なアプリケーションにおけるコンテキスト、正確性、信頼性を高める方法を発見してください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

人工知能におけるグラウンディングとは、言語や記号のような抽象的な情報を、画像や音のような具体的で現実的な感覚データに結びつける本質的なプロセスを指す。これにより、AIシステムは、内部で処理する概念(例えば、テキスト記述の単語)と、センサーを通して知覚するもの(例えば、カメラフィードの物体)とを結びつけることで、世界について意味のある理解を構築することができる。この能力は、環境とインテリジェントかつ文脈的に相互作用できるAIを創造するための基本であり、単純なパターン認識を超えて、人間が言葉を物体や行動に関連付ける方法に近い理解形態を達成する。グラウンディングは、複数のタイプのデータを同時に扱い、テキストと視覚のような異なる情報モダリティ間のギャップを埋めるマルチモーダルモデルには特に不可欠である。

関連性とキーコンセプト

グラウンディングは、視覚認識と自然言語理解(NLU)のギャップを埋めることを目的としたYOLOモデルのような視覚言語モデル(VLM)にとって特に重要である。従来の物体検出では、(「車」、「人」、「犬」のような)あらかじめ定義されたカテゴリに属する物体を識別するのが一般的であったが、グラウンディングにより、モデルは自由形式のテキスト記述に基づいて物体の位置を特定することができる。例えば、単に「人」と「自転車」を検出するのではなく、グラウンディングされたVLMは、画像やビデオフレーム内のオブジェクト構成を特定することによって、「青い自転車に乗っている赤いヘルメットをかぶった人を見つける」というクエリに応答することができる。これには、テキスト概念(「人」、「赤いヘルメット」、「乗っている」、「青い自転車」)を、ビジュアル・データ内の対応するピクセルや空間関係に結びつけることが含まれる。言語を特定の視覚的詳細に結びつけるこの能力は、文脈理解を強化し、キーワードだけでなく意味が情報検索の原動力となるセマンティック検索の進歩に密接に関係している。

アースの実世界での応用

グラウンディングは、様々な分野でより洗練されたインタラクティブなAIアプリケーションを可能にする:

  • インタラクティブ・ロボティクスロボットは自然言語で与えられた命令を理解し、実行することができる。そのためには、「緑の箱」や「窓」という言葉を、ロボットのセンサーが認識する実際の対象物に置き換える必要がある。ロボット工学におけるAIの役割の詳細と、ボストン・ダイナミクス社のような企業の例をご覧ください。
  • 自律システムの強化自動運転車は、"前方に停車している宅配トラックに注意 "など、テキストや音声で説明される複雑な交通シナリオをより適切に解釈することができる。これには、車のコンピューター・ビジョン(CV)システムによって識別された特定の車両に、その説明を根拠づけることが含まれる。Waymoのような企業が使用している技術については、こちらをご覧ください。
  • 詳細な医療画像分析放射線技師は、テキストクエリを使用して、医療スキャン(X線やMRIなど)内の特定の異常や関心領域をピンポイントで特定することができます。これにより、診断の効率と精度が向上する。腫瘍検出にYOLO 使用した関連研究や、Radiologyなどのジャーナルに掲載された研究をご覧ください:人工知能
  • コンテンツベースの画像/ビデオ検索ユーザーは、単純なタグやキーワードだけでなく、「雲に覆われた山に沈む夕日の写真を探す」といった、非常に具体的な自然言語クエリを使用して、膨大なビジュアルデータベースを検索することができます。

技術的側面

効果的なグラウンディングを達成するためには、高度なディープラーニング(DL)技術に頼ることが多い。注意メカニズム、特にクロスモーダル注意は、モデルがテキスト入力(例えば、プロンプト内の特定の単語)と感覚入力(例えば、画像内の特定の領域)の両方に関連する部分に集中するのを助ける。自然言語処理(NLP)で広く使用されている変換器ネットワークはCLIPのようなモデルに見られるように、グラウンディングを含むマルチモーダルタスクに適応されることが多い。このようなモデルの学習には、テキストと視覚的要素を明示的にリンクさせるアノテーションを持つ、大規模で高品質なアノテーションデータセットが必要であり、Ultralytics HUBのようなプラットフォームを通じて管理されることが多い、優れたデータラベリングの実践の重要性を強調している。また、対応するテキストと画像のペアを効果的に関連付けるモデルを学習させるために、対比学習のような技術も採用されています。 PyTorchまたは TensorFlow.

関連概念との区別

  • オブジェクト検出標準的なオブジェクト検出は、事前に定義されたオブジェクトクラス(例えば、「猫」、「車」)のインスタンスを識別し、それらの周りにバウンディングボックスを描画します。しかし、グラウンディングは、固定されたカテゴリに限定されない、潜在的に複雑でオープンな語彙の自然言語記述に基づいてオブジェクトを配置します。
  • 意味的セグメンテーションこのタスクは、画像内のすべてのピクセルにクラスラベルを割り当てる(例えば、「道路」、「空」、「建物」に属するすべてのピクセルにラベルを付ける)。グラウンディングは、すべてのピクセルを分類するのではなく、特定の言語フレーズを画像内の特定の領域やオブジェクトインスタンスにリンクさせることに重点を置く。これは、インスタンスセグメンテーションの一種である、参照表現セグメンテーションにより近い。

課題

ロバストなグラウンディング能力を開発するには、いくつかの課題がある。自然言語特有の曖昧さや多様性を扱うのは難しい。必要な大規模かつ正確なアノテーションデータセットの作成には労力とコストがかかる。複雑なマルチモーダルモデルのトレーニングに必要な計算リソースは、多くの場合、分散トレーニングや クラウドトレーニングを含むため、相当なものになる可能性がある。また、モデルがリアルタイム推論のために効率的にグラウンディングを実行できるようにすることも、実用的な展開のための重要なハードルである。ゼロショット学習や少数ショット学習のような分野では、未知のオブジェクト記述への汎化を改善し、データ依存性を低減するための研究が続けられており、現在進行中の研究はarXivのようなプラットフォームでしばしば見られます。

グラウンディングは依然としてAIにおける重要なフロンティアであり、人間の認知をより忠実に反映し、より自然な人間とAIの相互作用を可能にする、より深く、より実用的な世界の理解へとシステムを押し進める。

すべて読む