AIにおけるグラウンディングが、抽象的な概念を実世界のデータにどのように結びつけ、動的なアプリケーションにおけるコンテキスト、精度、信頼性を高めるかをご覧ください。
グラウンディングとは 人工知能(AI)における 人工知能(AI)において、抽象的な概念(一般的には自然言語の単語やフレーズ)を、物理的な世界における具体的な表現(例えば、画像のピクセルやロボットの感覚データなど)に結びつけるプロセスである。 例えば、画像のピクセルやロボットからの感覚データなどである。もっと簡単に言えば、コンピュータが「眠っている猫」という文章を読むと というテキストを読んだ場合、グラウンディングとは、写真を見て、猫がいる特定の領域を特定する能力のことである。 を特定する能力である。この能力は、言語記号と知覚情報の間の意味的ギャップを埋めるものである。 この課題は、認知科学では「記号のグラウンディング問題」として有名である。 として有名な課題である。従来のシステムでは 従来のシステムでは、テキストと画像を別々に処理していたかもしれないが、グラウンディングによって マルチモーダルAIは両者の関係を理解することができる。 より直感的な人間と機械のインタラクションが可能になる。
技術的なレベルでは、グラウンディングは高次元のベクトル空間の整列に依存している。最新のモデルでは ディープラーニング(DL)アーキテクチャ、特に トランスフォーマー)を利用する。 埋め込みと呼ばれる数値表現に変換する。学習中 学習中、モデルはテキストフレーズ(例えば「赤い車」)のエンベッディングを、そのオブジェクトに対応する視覚的特徴のエンベッディングに近づけるように学習する。 の埋め込みに近づけるように学習する。
このプロセスにより、オープン語彙検出が可能になる。標準的な 標準的なオブジェクト検出とは異なり COCO80クラスのように)事前に訓練されたクラスの固定リストに限定される標準的な物体検出とは異なり、接地モデルはテキストプロンプトによって記述されたあらゆる物体を識別することができる。 プロンプトによって記述されたあらゆるオブジェクトを識別できる。これはゼロショット学習を利用する。 これはゼロショット学習を利用したもので、モデルは、学習中に一度も明示的に見たことのないオブジェクトを、単にそれらを説明する言語を理解することによって識別する。 を理解するだけである。CLIPに関するOpenAIのような組織の研究は CLIPに関するOpenAIのような組織の研究は、このような視覚的表現とテキスト表現を整合させるための基礎を築いた。
グラウンディングは、機械がユーザーの意図を解釈し、環境と相互作用する方法を変える。
について ultralytics パッケージは YOLO モデルです。このモデル
このモデルでは、テキストプロンプトを使って、その場でカスタムクラスを定義することができる。
画像に「接地」させることができます。
次の例は、事前に訓練されたモデルをロードし、特定のオブジェクトをdetect するためのカスタムプロンプトを定義する方法を示しています。 を定義する方法を示します:
from ultralytics import YOLO
# Load a pre-trained YOLO-World model
model = YOLO("yolov8s-world.pt")
# Define custom text prompts (classes) to ground in the image
# The model will look specifically for these descriptions
model.set_classes(["person wearing hat", "blue backpack"])
# Run prediction on an image source
results = model.predict("bus.jpg")
# Show results to see bounding boxes around the grounded objects
results[0].show()
グラウンディングを理解するには、類似のコンピュータ・ビジョン・タスクと区別することが役に立つ:
進歩にもかかわらず、グラウンディングは依然として計算量が多い。膨大な言語モデルをビジョン・エンコーダに エンコーダーと整合させるには GPU リソースが必要となる。さらに、モデル というフレーズは、河岸を指すこともあれば、金融機関を指すこともある、 そのため、AIはコンテキスト・ウィンドウに頼って AIは、正しい視覚的根拠を解決するためにコンテキスト・ウィンドウに依存する必要があります。
これらのモデルがリアルタイム推論で効率的に動作するようにすることは リアルタイム推論のために、これらのモデルが 開発中の分野である。研究者はまた データの偏りにも取り組んでいる。 このトピックは、AIの倫理に関する文献で頻繁に議論されている。 において頻繁に議論されるトピックである。