用語集

視覚的プロンプティング

ポイントやボックスを用いた視覚的プロンプティングでAIモデルを誘導する方法を探求しましょう。Ultralytics SAM YOLO 精密なセグメンテーションと高速なデータアノテーションSAM 仕組みを学びます。

ビジュアルプロンプティングは、コンピュータビジョンにおける新興技術であり、ユーザーが点や境界ボックス、落書きなどの空間的・視覚的手がかりを提供することで、AIモデルの注目を画像内の特定オブジェクトや領域へ誘導する。従来のテキスト記述に依存するプロンプトエンジニアリングとは異なり、ビジュアルプロンプティングは人工知能（AI）システムとのより精密で直感的な相互作用を可能にする。この手法は、大規模な再学習や大量のラベル付きデータセットを必要とせずに、セグメンテーションや検出などのタスクを実行する現代の基盤モデルの能力を活用します。ユーザーが重要な部分を効果的に「指し示す」ことで、汎用モデルを新たなタスクに瞬時に適応させることが可能となり、人間の意図と機械の知覚の間のギャップを埋めることができます。

視覚的プロンプトのメカニズム

視覚的プロンプティングの核心は、空間情報をモデルの処理パイプラインに直接注入することで機能する。ユーザーがオブジェクトをクリックしたりボックスを描画したりすると、これらの入力は座標ベースの埋め込みに変換され、ニューラルネットワークが画像特徴と統合する。このプロセスは、Segment Anything Model（SAM）のようなインタラクティブなアーキテクチャの中核であり、モデルは幾何学的プロンプトに基づいてマスクを予測する。

視覚的プロンプトの柔軟性により、様々なインタラクションタイプが可能となります：

ポイントプロンプト：ユーザーが特定のピクセルをクリックして関心対象を示す。モデルはその後、この選択範囲をオブジェクト全体の境界まで拡張する。
バウンディングボックスの 描画は、 大まかな位置特定を提供し、モデルに対し、その領域内に含まれるclassify segment classify よう指示します。
落書きプロンプト：物体の上に描かれたフリーハンドの線は、物体が重なり合ったり類似した質感を持つ複雑な場面の曖昧さを解消するのに役立つ。

CVPR 2024で発表された最新の研究は、視覚的プロンプティングがデータアノテーションに必要な時間を大幅に短縮する方法を明らかにしている。人間のアノテーターは、手動でポリゴンをトレースする代わりに、簡単なクリック操作でモデルの予測結果をリアルタイムに修正できるためである。

ビジュアルプロンプティング対テキストプロンプティング

両手法ともモデルの挙動を誘導することを目的とするが、視覚的プロンプティングとテキストベースの手法を区別することが重要である。テキストから画像を生成する手法やゼロショット検出は、自然言語処理（NLP）を用いて意味的な記述（「赤い車を見つけろ」など）を解釈する。しかし言語は曖昧であったり、正確な空間的位置や抽象的な形状を記述するには不十分であったりする。

視覚的プロンプトは、指示をピクセル空間そのものに根ざすことでこの曖昧さを解消する。例えば医療画像解析において、放射線科医が疑わしい結節をクリックする方が、その正確な座標や不規則な形状をテキストで記述しようとするよりもはるかに正確である。多くの場合、最も強力なワークフローは両方のアプローチを組み合わせる—— 意味的フィルタリングにはテキストを、空間的精度には視覚的プロンプトを用いる—— これはマルチモーダル学習として知られる概念である。

実際のアプリケーション

視覚的プロンプトの適応性により、多様な産業分野で急速に普及が進んでいる：

インタラクティブ医療診断：医師は視覚的誘導ツールを用いてMRI画像内の腫瘍や臓器を特定します。関心領域をクリックするだけで、瞬時に3D体積測定値を生成でき、正確な腫瘍検出と手術計画を支援します。
スマート写真編集：Adobe Photoshopなどのコンシューマー向けソフトウェアやモバイルアプリでは、視覚的プロンプトが「マジック選択」ツールを実現します。ユーザーは人物やオブジェクトをタップするだけで背景を除去したり、対象を限定したフィルターを適用したりできます。これにより、手動でのマスキング技術が不要となり、基盤となるインスタンスセグメンテーション技術を活用できます。
ロボット操作： ロボット工学におけるAIでは、視覚インターフェースを通じて特定の物品を拾うようロボットに指示できる。操作者はロボットのカメラ映像内で対象物をクリックし、視覚的な指示を提供する。ロボットはこれを把持座標に変換し、倉庫における人間が関与する自動化を促進する。

Ultralytics実装

Ultralytics は、特にSAMといったモデルを通じて、視覚的プロンプティングワークフローをサポートします。これらのモデルにより、開発者はプログラムでポイントまたはボックス座標を渡してセグメンテーションマスクを取得できます。

次の例は ultralytics 画像にポイントプロンプトを適用するパッケージ。モデルに対し、特定の座標位置にあるsegment よう指示する。

from ultralytics import SAM

# Load the Segment Anything Model (SAM)
model = SAM("sam2.1_b.pt")

# Apply a visual point prompt to the image
# The 'points' argument accepts [x, y] coordinates
# labels: 1 indicates a foreground point (include), 0 indicates background
results = model("https://ultralytics.com/images/bus.jpg", points=[[300, 350]], labels=[1])

# Display the segmented result
results[0].show()

モデルの俊敏性の向上

視覚的プロンプティングは、コンピュータビジョンが「プロンプト可能な」方向へ移行することを示しており、モデルはもはや静的な「ブラックボックス」ではなく、対話型ツールとなる。この機能は、アクティブラーニングループにおいて不可欠であり、モデルはユーザーのフィードバックを取り込むことで急速に改善される。

これらの機能を本番環境に統合したい開発者向けに、 Ultralytics 動的入力を処理可能なモデルを展開し、データセットを管理するツールを提供します。研究が進むにつれ、視覚的プロンプトと大規模言語モデル（LLM）のより緊密な統合が実現され、システムが現在テキストを扱うのと同じ流暢さで視覚的入力を推論できるようになると予想されます。

視覚的プロンプティング

Ultralytics YOLO モデルをトレーニングし、業種を問わずワークフローを効率化する

お客様のイノベーションを強化する柔軟なエンタープライズライセンスソリューション

Ultralytics YOLOAIモデルを数秒でトレーニング

視覚的プロンプトのメカニズム

ビジュアルプロンプティング対テキストプロンプティング

実際のアプリケーション

Ultralytics実装

モデルの俊敏性の向上

このカテゴリの関連記事

コンピュータービジョンを活用した12の航空写真活用事例

単眼深度推定とは何か？概要

Ultralytics YOLO を用いたAI脅威検知の活用事例

Ultralytics コミュニティに参加する

視覚的プロンプティング

Ultralytics YOLO モデルをトレーニングし、業種を問わずワークフローを効率化する

お客様のイノベーションを強化する柔軟なエンタープライズライセンスソリューション

Ultralytics YOLOAIモデルを数秒でトレーニング

視覚的プロンプトのメカニズム

ビジュアルプロンプティング対テキストプロンプティング

実際のアプリケーション

Ultralytics実装

モデルの俊敏性の向上

このカテゴリの関連記事

コンピュータービジョンを活用した12の航空写真活用事例

単眼深度推定とは何か？ 概要

Ultralytics YOLO を用いたAI脅威検知の活用事例

Ultralytics コミュニティに参加する

単眼深度推定とは何か？概要