ポイントやボックスを用いた視覚的プロンプティングでAIモデルを誘導する方法を探求しましょう。Ultralytics SAM YOLO 精密なセグメンテーションと高速なデータアノテーションSAM 仕組みを学びます。
ビジュアルプロンプティングは、コンピュータビジョンにおける新興技術であり、ユーザーが点や境界ボックス、落書きなどの空間的・視覚的手がかりを提供することで、AIモデルの注目を画像内の特定オブジェクトや領域へ誘導する。従来のテキスト記述に依存するプロンプトエンジニアリングとは異なり、ビジュアルプロンプティングは人工知能(AI)システムとのより精密で直感的な相互作用を可能にする。 この手法は、大規模な再学習や大量のラベル付きデータセットを必要とせずに、セグメンテーションや検出などのタスクを実行する現代の基盤モデルの能力を活用します。ユーザーが重要な部分を効果的に「指し示す」ことで、汎用モデルを新たなタスクに瞬時に適応させることが可能となり、人間の意図と機械の知覚の間のギャップを埋めることができます。
視覚的プロンプティングの核心は、空間情報をモデルの処理パイプラインに直接注入することで機能する。 ユーザーがオブジェクトをクリックしたりボックスを描画したりすると、これらの入力は座標ベースの埋め込みに変換され、 ニューラルネットワークが画像特徴と統合する。このプロセスは、Segment Anything Model(SAM)のようなインタラクティブなアーキテクチャの中核であり、モデルは幾何学的プロンプトに基づいてマスクを予測する。
視覚的プロンプトの柔軟性により、様々なインタラクションタイプが可能となります:
CVPR 2024で発表された最新の研究は、視覚的プロンプティングがデータアノテーションに必要な時間を大幅に短縮する方法を明らかにしている。人間のアノテーターは、手動でポリゴンをトレースする代わりに、簡単なクリック操作でモデルの予測結果をリアルタイムに修正できるためである。
両手法ともモデルの挙動を誘導することを目的とするが、視覚的プロンプティングとテキストベースの手法を区別することが重要である。テキストから画像を生成する手法やゼロショット検出は、自然言語処理(NLP)を用いて意味的な記述(「赤い車を見つけろ」など)を解釈する。しかし言語は曖昧であったり、正確な空間的位置や抽象的な形状を記述するには不十分であったりする。
視覚的プロンプトは、指示をピクセル空間そのものに根ざすことでこの曖昧さを解消する。 例えば 医療画像解析において、 放射線科医が疑わしい結節をクリックする方が、 その正確な座標や不規則な形状をテキストで記述しようとするよりもはるかに正確である。 多くの場合、最も強力なワークフローは両方のアプローチを組み合わせる—— 意味的フィルタリングにはテキストを、空間的精度には視覚的プロンプトを用いる—— これはマルチモーダル学習として知られる概念である。
視覚的プロンプトの適応性により、多様な産業分野で急速に普及が進んでいる:
Ultralytics は、特にSAMといったモデルを通じて、視覚的プロンプティングワークフローをサポートします。これらのモデルにより、開発者はプログラムでポイントまたはボックス座標を渡してセグメンテーションマスクを取得できます。
次の例は ultralytics 画像にポイントプロンプトを適用するパッケージ。
モデルに対し、特定の座標位置にあるsegment よう指示する。
from ultralytics import SAM
# Load the Segment Anything Model (SAM)
model = SAM("sam2.1_b.pt")
# Apply a visual point prompt to the image
# The 'points' argument accepts [x, y] coordinates
# labels: 1 indicates a foreground point (include), 0 indicates background
results = model("https://ultralytics.com/images/bus.jpg", points=[[300, 350]], labels=[1])
# Display the segmented result
results[0].show()
視覚的プロンプティングは、コンピュータビジョンが「プロンプト可能な」方向へ移行することを示しており、モデルはもはや静的な 「ブラックボックス」ではなく、対話型ツールとなる。この機能は、 アクティブラーニングループにおいて不可欠であり、モデルはユーザーのフィードバックを取り込むことで 急速に改善される。
これらの機能を本番環境に統合したい開発者向けに、 Ultralytics 動的入力を処理可能なモデルを展開し、 データセットを管理するツールを提供します。 研究が進むにつれ、視覚的プロンプトと大規模言語モデル(LLM)の より緊密な統合が実現され、 システムが現在テキストを扱うのと同じ流暢さで 視覚的入力を推論できるようになると予想されます。