YOLO Vision Shenzhen
深セン
今すぐ参加
用語集

Visual Prompting

点とボックスでAIモデルをガイドするビジュアルプロンプティングを探求しましょう。Ultralytics YOLOとSAMがどのように正確なsegmentとより高速なデータアノテーションを可能にするかを学びます。

Visual promptingは、コンピュータービジョンにおける新たな技術であり、ユーザーが点、バウンディングボックス、落書きなどの空間的または視覚的な手がかりを提供することで、AIモデルの焦点を画像内の特定のオブジェクトや領域に誘導します。主にテキスト記述に依存する従来のprompt engineeringとは異なり、Visual promptingはArtificial Intelligence (AI)システムとのより正確で直感的な対話を可能にします。この方法は、現代のfoundation modelsの能力を活用し、大規模な再トレーニングや大量のラベル付きデータセットを必要とせずに、segmentやdetectのようなタスクを実行します。重要なものに効果的に「指し示す」ことで、ユーザーは汎用モデルを新しいタスクに即座に適応させることができ、人間の意図と機械の知覚との間のギャップを埋めます。

視覚プロンプトのメカニズム

ビジュアルプロンプティングの核となるのは、空間情報をモデルの処理パイプラインに直接注入することです。ユーザーがオブジェクトをクリックしたりボックスを描画したりすると、これらの入力は座標ベースの埋め込みに変換され、ニューラルネットワークが画像特徴と統合します。このプロセスは、モデルが幾何学的プロンプトに基づいてマスクを予測するSegment Anything Model (SAM)のような対話型アーキテクチャの中心です。

ビジュアルプロンプティングの柔軟性により、さまざまなインタラクションタイプが可能です。

  • ポイントプロンプト: ユーザーは、関心のあるオブジェクトを示すために特定のピクセルをクリックします。モデルは、この選択をオブジェクト全体の境界に拡張します。
  • ボックスプロンプト: バウンディングボックスを描画することで、粗いローカライゼーションが提供され、モデルはその領域内に含まれるすべてをsegmentまたはclassifyするように指示されます。
  • スクリブルプロンプト: オブジェクトの上に描かれたフリーハンドの線は、オブジェクトが重なっていたり、似たようなテクスチャを持っていたりする複雑なシーンを明確にするのに役立ちます。

CVPR 2024で発表された最近の研究は、ビジュアルプロンプティングがデータアノテーションに必要な時間を大幅に削減する方法を強調しています。これは、人間のアノテーターが手動でポリゴンをトレースするのではなく、簡単なクリックでモデルの予測をリアルタイムで修正できるためです。

ビジュアルプロンプティング vs. テキストプロンプティング

両方の手法がモデルの振る舞いをガイドすることを目的としていますが、ビジュアルプロンプティングとテキストベースの手法を区別することが重要です。テキストから画像への生成やゼロショットdetectは、意味記述(例:「赤い車を見つける」)を解釈するために自然言語処理(NLP)に依存します。しかし、言語は正確な空間位置や抽象的な形状を記述するには曖昧であるか、不十分である可能性があります。

ビジュアルプロンプティングは、指示をピクセル空間自体に根付かせることで、この曖昧さを解消します。例えば、医用画像解析では、放射線科医が疑わしい結節をクリックする方が、その正確な座標や不規則な形状をテキストで記述しようとするよりもはるかに正確です。多くの場合、最も強力なワークフローは、テキストを意味的フィルタリングに、ビジュアルプロンプトを空間的精度に使用する両方のアプローチを組み合わせます。これはマルチモーダル学習として知られる概念です。

実際のアプリケーション

ビジュアルプロンプティングの適応性により、多様な業界で急速に採用されています。

  • インタラクティブな医療診断: 医師は視覚的なプロンプトツールを使用して、MRIスキャンで腫瘍や臓器を分離します。関心領域をクリックするだけで、3D体積測定値を即座に生成でき、正確な腫瘍detectと手術計画に役立ちます。
  • Smart Photo Editing: Adobe Photoshopやモバイルアプリなどの消費者向けソフトウェアでは、ビジュアルプロンプティングが「マジック選択」ツールを強化しています。ユーザーは人物やオブジェクトをタップするだけで背景を削除したり、特定のフィルターを適用したりでき、手動でのマスキングスキルを必要とせずに、基盤となるinstance segmentation技術を活用します。
  • ロボットマニピュレーション: ロボットAIにおいて、ロボットは視覚インターフェースを通じて特定のアイテムをピックアップするように指示できます。オペレーターがロボットのカメラフィード内のオブジェクトをクリックすると、ロボットはそれを把持座標に変換する視覚的なプロンプトを受け取り、倉庫におけるヒューマン・イン・ザ・ループ自動化を促進します。

Ultralytics実装

Ultralyticsエコシステムは、特にFastSAMやSAMのようなモデルを通じて、ビジュアルプロンプティングワークフローをサポートします。これらのモデルにより、開発者は点またはボックスの座標をプログラム的に渡してsegmentマスクを取得できます。

次の例は ultralytics 特定の座標に位置するオブジェクトをsegmentするようモデルに指示するために、画像にポイントプロンプトを適用するパッケージ。

from ultralytics import SAM

# Load the Segment Anything Model (SAM)
model = SAM("sam2.1_b.pt")

# Apply a visual point prompt to the image
# The 'points' argument accepts [x, y] coordinates
# labels: 1 indicates a foreground point (include), 0 indicates background
results = model("https://ultralytics.com/images/bus.jpg", points=[[300, 350]], labels=[1])

# Display the segmented result
results[0].show()

モデルアジリティの推進

ビジュアルプロンプティングは、「プロンプト可能」なコンピュータビジョンへの移行を表しており、モデルはもはや静的な「ブラックボックス」ではなく、インタラクティブなツールとなります。この機能は、ユーザーフィードバックを取り入れることでモデルが急速に改善されるアクティブラーニングループにとって不可欠です。

これらの機能を本番環境に統合しようとしている開発者にとって、Ultralytics Platformは、データセットを管理し、動的な入力を処理できるモデルをデプロイするためのツールを提供します。研究が進むにつれて、視覚プロンプトと大規模言語モデル (LLM)との間でさらに緊密な統合が見られると予想され、現在テキストを処理するのと同じ流暢さで視覚入力について推論できるシステムが実現します。

共にAIの未来を築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。