Yolo 深圳
深セン
今すぐ参加
用語集

グラウンディング

AIにおけるグラウンディングが、抽象的な概念を実世界のデータにどのように結びつけ、動的なアプリケーションにおけるコンテキスト、精度、信頼性を高めるかをご覧ください。

グラウンディングとは 人工知能(AI)における 人工知能(AI)において、抽象的な概念(一般的には自然言語の単語やフレーズ)を、物理的な世界における具体的な表現(例えば、画像のピクセルやロボットの感覚データなど)に結びつけるプロセスである。 例えば、画像のピクセルやロボットからの感覚データなどである。もっと簡単に言えば、コンピュータが「眠っている猫」という文章を読むと というテキストを読んだ場合、グラウンディングとは、写真を見て、猫がいる特定の領域を特定する能力のことである。 を特定する能力である。この能力は、言語記号と知覚情報の間の意味的ギャップを埋めるものである。 この課題は、認知科学では「記号のグラウンディング問題」として有名である。 として有名な課題である。従来のシステムでは 従来のシステムでは、テキストと画像を別々に処理していたかもしれないが、グラウンディングによって マルチモーダルAIは両者の関係を理解することができる。 より直感的な人間と機械のインタラクションが可能になる。

グラウンディングのメカニズム

技術的なレベルでは、グラウンディングは高次元のベクトル空間の整列に依存している。最新のモデルでは ディープラーニング(DL)アーキテクチャ、特に トランスフォーマー)を利用する。 埋め込みと呼ばれる数値表現に変換する。学習中 学習中、モデルはテキストフレーズ(例えば「赤い車」)のエンベッディングを、そのオブジェクトに対応する視覚的特徴のエンベッディングに近づけるように学習する。 の埋め込みに近づけるように学習する。

このプロセスにより、オープン語彙検出が可能になる。標準的な 標準的なオブジェクト検出とは異なり COCO80クラスのように)事前に訓練されたクラスの固定リストに限定される標準的な物体検出とは異なり、接地モデルはテキストプロンプトによって記述されたあらゆる物体を識別することができる。 プロンプトによって記述されたあらゆるオブジェクトを識別できる。これはゼロショット学習を利用する。 これはゼロショット学習を利用したもので、モデルは、学習中に一度も明示的に見たことのないオブジェクトを、単にそれらを説明する言語を理解することによって識別する。 を理解するだけである。CLIPに関するOpenAIのような組織の研究は CLIPに関するOpenAIのような組織の研究は、このような視覚的表現とテキスト表現を整合させるための基礎を築いた。

実際のアプリケーション

グラウンディングは、機械がユーザーの意図を解釈し、環境と相互作用する方法を変える。

  • ロボット工学と自律エージェント:ロボット工学と自律エージェント ロボット工学におけるAIの分野では、自然言語コマンドを実行するための下地が不可欠である。 自然言語コマンドを実行するために不可欠である。ユーザーがサービスロボットに「マグカップの隣にあるリンゴをとって」と指示した場合、ロボットは「リンゴ」、「マグカップ」、「リンゴ」という単語をグラウンディングしなければならない。 ロボットは、「リンゴ」、「マグカップ」、そして「隣の」という空間的関係を、具体的な物理的座標に置き換える必要がある。 「next-to "という空間的関係を、ロボットのカメラ・フィードにおける特定の物理的座標に基づかせなければならない。これにより IEEEのロボット工学研究の主要な焦点である。
  • セマンティック検索と検索:高度なセマンティック検索エンジンの セマンティック検索エンジン。キーワードのマッチングの代わりに のような複雑なクエリに対してビデオデータベースを検索することができる。 といった複雑なクエリを検索することができる。エンジンは、正確なタイムスタンプを検索するために、ビデオファイルのビジュアルコンテンツにクエリを接地する。 タイムスタンプを取得する。この技術は ビデオ理解とデジタル資産管理 管理ツールを強化する。

Ultralytics グラウンディングYOLO

について ultralytics パッケージは YOLO モデルです。このモデル このモデルでは、テキストプロンプトを使って、その場でカスタムクラスを定義することができる。 画像に「接地」させることができます。

次の例は、事前に訓練されたモデルをロードし、特定のオブジェクトをdetect するためのカスタムプロンプトを定義する方法を示しています。 を定義する方法を示します:

from ultralytics import YOLO

# Load a pre-trained YOLO-World model
model = YOLO("yolov8s-world.pt")

# Define custom text prompts (classes) to ground in the image
# The model will look specifically for these descriptions
model.set_classes(["person wearing hat", "blue backpack"])

# Run prediction on an image source
results = model.predict("bus.jpg")

# Show results to see bounding boxes around the grounded objects
results[0].show()

グラウンディングと関連概念の区別

グラウンディングを理解するには、類似のコンピュータ・ビジョン・タスクと区別することが役に立つ:

  • 対オブジェクト検出:標準的な検出は YOLO11で実行されるような標準的な検出では、閉じたカテゴリの集合から物体を識別する。 (例:「人」、「車」)。グラウンディングはオープンエンドであり、学習データに存在しない自由形式のテキスト記述に基づいて物体をdetect することができる。 を検出することができる。
  • 対画像キャプション: 画像キャプションは画像からテキストの説明を生成する。 (Image $to$ Text)。グラウンディングは通常、逆方向または双方向に動作し、テキスト入力に基づいて視覚的要素 を見つける(Text $to$ Image Region)。
  • セマンティック・セグメンテーション一方 セマンティックセグメンテーション セマンティック・セグメンテーション:セマンティック・セグメンテーションは、すべてのピクセルをカテゴリーに分類するが、それらのピクセルを特定の言語的フレーズや、複雑な属性によって定義された明確なインスタンス 例えば、"光沢のある赤いリンゴ "と単なる "リンゴ "のように)。

現在の課題

進歩にもかかわらず、グラウンディングは依然として計算量が多い。膨大な言語モデルをビジョン・エンコーダに エンコーダーと整合させるには GPU リソースが必要となる。さらに、モデル というフレーズは、河岸を指すこともあれば、金融機関を指すこともある、 そのため、AIはコンテキスト・ウィンドウに頼って AIは、正しい視覚的根拠を解決するためにコンテキスト・ウィンドウに依存する必要があります。

これらのモデルがリアルタイム推論で効率的に動作するようにすることは リアルタイム推論のために、これらのモデルが 開発中の分野である。研究者はまた データの偏りにも取り組んでいる。 このトピックは、AIの倫理に関する文献で頻繁に議論されている。 において頻繁に議論されるトピックである。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加