AIにおけるグラウンディングの基礎を探求する。Ultralytics とYOLOを用いたオープンボキャブラリ検出により、自然言語と視覚データを結びつける方法を学ぶ。
接地(グラウンドイング)とは、人工知能システムが抽象概念(通常は自然言語から導出される)を、視覚データや感覚入力といった物理世界における具体的・具体的な表現と結びつける能力を指す。コンピュータビジョンにおいては、モデルが単にテキストを処理するだけでなく、「犬を散歩させている人」といったフレーズを解析し、画像や動画フィード内でそれらの対象を正確に位置特定できることを意味する。 このプロセスは 記号推論とピクセルレベルの知覚の間の隔たりを埋め、認知科学における根本的な 記号接地問題に対処する。言語的記号を視覚的特徴に結びつけることで、接地は現代の マルチモーダルAIの礎となり、機械が動的な人間の環境とより直感的に 相互作用することを可能にする。
技術的なレベルでは、グラウンディングとは異なるモダリティからのデータを共通の高次元ベクトル空間に整合させることを意味する。自然言語処理(NLP)で使用されるトランスフォーマーフレームワークを基盤とする高度なアーキテクチャは、テキスト記述と視覚入力の両方に対して埋め込みと呼ばれる数値表現を生成する。 学習過程において、モデルはテキストプロンプト(例:「青いリュックサック」)の埋め込みと、対応する視覚領域の埋め込みとの距離を最小化するよう学習する。
この整合性により、オープンボキャブラリ検出が可能となります。従来の教師あり学習ではモデルが固定カテゴリセットに制限されるのに対し、グラウンディングはゼロショット学習を実現します。グラウンディングされたモデルは、訓練中に明示的に見たことのない物体でも、それを記述する言語を理解していれば識別できます。この柔軟性は、PyTorchなどの深層学習フレームワークによって支えられています。 PyTorchなどの深層学習フレームワークによって支えられており、これらはマルチモーダルアラインメントに必要な複雑な行列演算を可能にします。
接地技術は、システムがユーザーの意図を解釈し、非構造化環境を効果的にナビゲートすることを可能にすることで、産業を変革している。
Ultralytics 、YOLO専用アーキテクチャを通じて接地をサポートします。 標準モデルは特定のデータセットでのトレーニングを必要としますが、YOLOテキストプロンプトを用いてカスタム検出クラスを即座に定義できます。これにより、再トレーニングなしで自然言語入力を画像に効果的に「接地」させることが可能です。
次の例は ultralytics カスタムテキスト記述に基づくdetect パッケージ:
from ultralytics import YOLO
# Load a pre-trained YOLO-World model for open-vocabulary detection
model = YOLO("yolov8s-world.pt")
# Define custom text prompts (classes) to ground in the image
# The model maps these descriptions to visual features
model.set_classes(["person wearing hat", "blue backpack"])
# Run prediction on an image source to localize the described objects
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
接地の有用性を十分に理解するには、類似のコンピュータビジョンタスクとの違いを明確にすることが有益である:
進歩にもかかわらず、接地処理は依然として計算負荷が高い。大規模言語モデルと視覚エンコーダの整合には、GPU 効率的なメモリ管理が必要であり、この課題はNVIDIAのようなハードウェア革新者によって頻繁に解決されている。 NVIDIAといったハードウェア革新企業によって対処されることが多い課題である。さらに、モデルは言語的曖昧性に苦戦することがあり、単語「bat」がスポーツ用具を指すのか動物を指すのかを解決するために大きな文脈ウィンドウを必要とする。
将来の開発は、ネイティブにマルチモーダルな統合基盤モデルへと向かっています。 Ultralytics のようなツールは、開発者がこれらのタスクに必要な複雑なデータセットを管理できるよう進化しており、 データアノテーションとモデルデプロイメントのための効率化されたワークフローを提供します。 これらの技術が成熟するにつれ、エッジデバイスへのグラウンディングのシームレスな統合が期待でき、 よりスマートで応答性の高いAIアプリケーションを実現します。