Yolo 深圳
深セン
今すぐ参加
用語集

グラウンディング

AIにおけるグラウンディングの基礎を探求する。Ultralytics とYOLOを用いたオープンボキャブラリ検出により、自然言語と視覚データを結びつける方法を学ぶ。

接地(グラウンドイング)とは、人工知能システムが抽象概念(通常は自然言語から導出される)を、視覚データや感覚入力といった物理世界における具体的・具体的な表現と結びつける能力を指す。コンピュータビジョンにおいては、モデルが単にテキストを処理するだけでなく、「犬を散歩させている人」といったフレーズを解析し、画像や動画フィード内でそれらの対象を正確に位置特定できることを意味する。 このプロセスは 記号推論とピクセルレベルの知覚の間の隔たりを埋め、認知科学における根本的な 記号接地問題に対処する。言語的記号を視覚的特徴に結びつけることで、接地は現代の マルチモーダルAIの礎となり、機械が動的な人間の環境とより直感的に 相互作用することを可能にする。

グラウンディングのメカニズム

技術的なレベルでは、グラウンディングとは異なるモダリティからのデータを共通の高次元ベクトル空間に整合させることを意味する。自然言語処理(NLP)で使用されるトランスフォーマーフレームワークを基盤とする高度なアーキテクチャは、テキスト記述と視覚入力の両方に対して埋め込みと呼ばれる数値表現を生成する。 学習過程において、モデルはテキストプロンプト(例:「青いリュックサック」)の埋め込みと、対応する視覚領域の埋め込みとの距離を最小化するよう学習する。

この整合性により、オープンボキャブラリ検出が可能となります。従来の教師あり学習ではモデルが固定カテゴリセットに制限されるのに対し、グラウンディングはゼロショット学習を実現します。グラウンディングされたモデルは、訓練中に明示的に見たことのない物体でも、それを記述する言語を理解していれば識別できます。この柔軟性は、PyTorchなどの深層学習フレームワークによって支えられています。 PyTorchなどの深層学習フレームワークによって支えられており、これらはマルチモーダルアラインメントに必要な複雑な行列演算を可能にします。

実際のアプリケーション

接地技術は、システムがユーザーの意図を解釈し、非構造化環境を効果的にナビゲートすることを可能にすることで、産業を変革している。

  • ロボティクスにおけるAI自律エージェントが音声指示を実行するには、位置特定が不可欠である。倉庫ロボットが「最上段の棚にある荷物を拾え」と指示された場合、「荷物」と「最上段の棚」という概念を視野内の特定の3D座標に位置特定しなければならない。この能力はMIT CSAILのロボティクス研究の主要な焦点であり、ロボットが人間と安全に共存して動作することを可能にする。
  • 意味検索とメディア検索: グラウンディング技術は、キーワードマッチングを超えた高度な検索エンジンを実現します。ユーザーは「夕暮れ時に左折する自転車乗り」といった複雑な記述で動画アーカイブを検索でき、システムはグラウンディングを用いて特定のタイムスタンプを取得します。これにより、セキュリティやメディア管理における動画理解が大幅に向上します。
  • 支援技術:視覚障害のあるユーザー向けに、位置特定機能によりアプリケーションは 周囲の状況をリアルタイムで説明したり、環境に関する質問に回答したりできます。 これは音声生成と連動した堅牢な画像認識技術に基づいています。

Ultralytics グラウンディングYOLO

Ultralytics 、YOLO専用アーキテクチャを通じて接地をサポートします。 標準モデルは特定のデータセットでのトレーニングを必要としますが、YOLOテキストプロンプトを用いてカスタム検出クラスを即座に定義できます。これにより、再トレーニングなしで自然言語入力を画像に効果的に「接地」させることが可能です。

次の例は ultralytics カスタムテキスト記述に基づくdetect パッケージ:

from ultralytics import YOLO

# Load a pre-trained YOLO-World model for open-vocabulary detection
model = YOLO("yolov8s-world.pt")

# Define custom text prompts (classes) to ground in the image
# The model maps these descriptions to visual features
model.set_classes(["person wearing hat", "blue backpack"])

# Run prediction on an image source to localize the described objects
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

グラウンディングと関連概念の区別

接地の有用性を十分に理解するには、類似のコンピュータビジョンタスクとの違いを明確にすることが有益である:

  • vs.オブジェクト検出: 最先端のYOLO26などの従来型検出モデルは、 閉じた事前定義カテゴリセット(例:COCO)から オブジェクトを識別する。一方、グラウンディングは自由形式のテキストに基づきオブジェクトを識別するオープンエンドな手法である。
  • 対比:画像キャプション生成 キャプション生成は画像全体に対する説明文を生成する(画像 $\to$ テキスト)。グラウンディングは通常、逆方向または双方向で動作し、テキスト入力に基づいて特定の視覚要素を特定する(テキスト $\to$ 画像領域)。
  • 視覚的質問応答(VQA) VQAは画像に関する特定の質問(例:「その車はどんな色ですか?」)に答えることを含む。グラウンディングは特に位置特定ステップ——言及された物体の周囲に境界ボックスを描くことに焦点を当てる。

課題と今後の展望

進歩にもかかわらず、接地処理は依然として計算負荷が高い。大規模言語モデルと視覚エンコーダの整合には、GPU 効率的なメモリ管理が必要であり、この課題はNVIDIAのようなハードウェア革新者によって頻繁に解決されている。 NVIDIAといったハードウェア革新企業によって対処されることが多い課題である。さらに、モデルは言語的曖昧性に苦戦することがあり、単語「bat」がスポーツ用具を指すのか動物を指すのかを解決するために大きな文脈ウィンドウを必要とする。

将来の開発は、ネイティブにマルチモーダルな統合基盤モデルへと向かっています。 Ultralytics のようなツールは、開発者がこれらのタスクに必要な複雑なデータセットを管理できるよう進化しており、 データアノテーションとモデルデプロイメントのための効率化されたワークフローを提供します。 これらの技術が成熟するにつれ、エッジデバイスへのグラウンディングのシームレスな統合が期待でき、 よりスマートで応答性の高いAIアプリケーションを実現します。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加