用語集

接地

AIを基礎とすることで、抽象的な概念を実世界のデータと結びつけ、動的なアプリケーションにおけるコンテキスト、正確性、信頼性を高める方法を発見してください。

人工知能におけるグラウンディングとは、言語や記号のような抽象的な情報を、画像や音のような具体的で現実的な感覚データに結びつける本質的なプロセスを指す。これにより、AIシステムは、内部で処理する概念（例えば、テキスト記述の単語）と、センサーを通して知覚するもの（例えば、カメラフィードの物体）とを結びつけることで、世界について意味のある理解を構築することができる。この能力は、環境とインテリジェントかつ文脈的に相互作用できるAIを創造するための基本であり、単純なパターン認識を超えて、人間が言葉を物体や行動に関連付ける方法に近い理解形態を達成する。グラウンディングは、複数のタイプのデータを同時に扱い、テキストと視覚のような異なる情報モダリティ間のギャップを埋めるマルチモーダルモデルには特に不可欠である。

アースの実世界での応用

グラウンディングは、様々な分野でより洗練されたインタラクティブなAIアプリケーションを可能にする：

インタラクティブ・ロボティクス：ロボットは自然言語で与えられた命令を理解し、実行することができる。そのためには、「緑の箱」や「窓」という言葉を、ロボットのセンサーが認識する実際の対象物に置き換える必要がある。ロボット工学におけるAIの役割の詳細と、ボストン・ダイナミクス社のような企業の例をご覧ください。
自律システムの強化：自動運転車は、"前方に停車している宅配トラックに注意 "など、テキストや音声で説明される複雑な交通シナリオをより適切に解釈することができる。これには、車のコンピューター・ビジョン（CV）システムによって識別された特定の車両に、その説明を根拠づけることが含まれる。Waymoのような企業が使用している技術については、こちらをご覧ください。
詳細な医療画像分析：放射線技師は、テキストクエリを使用して、医療スキャン（X線やMRIなど）内の特定の異常や関心領域をピンポイントで特定することができます。これにより、診断の効率と精度が向上する。腫瘍検出にYOLO 使用した関連研究や、Radiologyなどのジャーナルに掲載された研究をご覧ください：人工知能。
コンテンツベースの画像/ビデオ検索：ユーザーは、単純なタグやキーワードだけでなく、「雲に覆われた山に沈む夕日の写真を探す」といった、非常に具体的な自然言語クエリを使用して、膨大なビジュアルデータベースを検索することができます。

技術的側面

効果的なグラウンディングを達成するためには、高度なディープラーニング（DL）技術に頼ることが多い。注意メカニズム、特にクロスモーダル注意は、モデルがテキスト入力（例えば、プロンプト内の特定の単語）と感覚入力（例えば、画像内の特定の領域）の両方に関連する部分に集中するのを助ける。自然言語処理（NLP）で広く使用されている変換器ネットワークは、CLIPのようなモデルに見られるように、グラウンディングを含むマルチモーダルタスクに適応されることが多い。このようなモデルの学習には、テキストと視覚的要素を明示的にリンクさせるアノテーションを持つ、大規模で高品質なアノテーションデータセットが必要であり、Ultralytics HUBのようなプラットフォームを通じて管理されることが多い、優れたデータラベリングの実践の重要性を強調している。また、対応するテキストと画像のペアを効果的に関連付けるモデルを学習させるために、対比学習のような技術も採用されています。 PyTorchまたは TensorFlow.

課題

ロバストなグラウンディング能力を開発するには、いくつかの課題がある。自然言語特有の曖昧さや多様性を扱うのは難しい。必要な大規模かつ正確なアノテーションデータセットの作成には労力とコストがかかる。複雑なマルチモーダルモデルのトレーニングに必要な計算リソースは、多くの場合、分散トレーニングやクラウドトレーニングを含むため、相当なものになる可能性がある。また、モデルがリアルタイム推論のために効率的にグラウンディングを実行できるようにすることも、実用的な展開のための重要なハードルである。ゼロショット学習や少数ショット学習のような分野では、未知のオブジェクト記述への汎化を改善し、データ依存性を低減するための研究が続けられており、現在進行中の研究はarXivのようなプラットフォームでしばしば見られます。

グラウンディングは依然としてAIにおける重要なフロンティアであり、人間の認知をより忠実に反映し、より自然な人間とAIの相互作用を可能にする、より深く、より実用的な世界の理解へとシステムを押し進める。

接地

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

柔軟なエンタープライズライセンシングソリューションでイノベーションを促進

AIモデルを数秒でトレーニングUltralytics YOLO

Ultralytics HUB でYOLO モデルを簡単にトレーニング

関連性とキーコンセプト

アースの実世界での応用

技術的側面

関連概念との区別

課題

ブログをもっと読む

Ultralytics コミュニティに参加する

接地

Ultralytics HUB でを使ってYOLO モデルをシンプルにトレーニングする。

柔軟なエンタープライズライセンシングソリューションでイノベーションを促進

AIモデルを数秒でトレーニングUltralytics YOLO

Ultralytics HUB でYOLO モデルを簡単にトレーニング

関連性とキーコンセプト

アースの実世界での応用

技術的側面

関連概念との区別

課題

ブログをもっと読む

Ultralytics コミュニティに参加する

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。