点とボックスでAIモデルをガイドするビジュアルプロンプティングを探求しましょう。Ultralytics YOLOとSAMがどのように正確なsegmentとより高速なデータアノテーションを可能にするかを学びます。
Visual promptingは、コンピュータービジョンにおける新たな技術であり、ユーザーが点、バウンディングボックス、落書きなどの空間的または視覚的な手がかりを提供することで、AIモデルの焦点を画像内の特定のオブジェクトや領域に誘導します。主にテキスト記述に依存する従来のprompt engineeringとは異なり、Visual promptingはArtificial Intelligence (AI)システムとのより正確で直感的な対話を可能にします。この方法は、現代のfoundation modelsの能力を活用し、大規模な再トレーニングや大量のラベル付きデータセットを必要とせずに、segmentやdetectのようなタスクを実行します。重要なものに効果的に「指し示す」ことで、ユーザーは汎用モデルを新しいタスクに即座に適応させることができ、人間の意図と機械の知覚との間のギャップを埋めます。
ビジュアルプロンプティングの核となるのは、空間情報をモデルの処理パイプラインに直接注入することです。ユーザーがオブジェクトをクリックしたりボックスを描画したりすると、これらの入力は座標ベースの埋め込みに変換され、ニューラルネットワークが画像特徴と統合します。このプロセスは、モデルが幾何学的プロンプトに基づいてマスクを予測するSegment Anything Model (SAM)のような対話型アーキテクチャの中心です。
ビジュアルプロンプティングの柔軟性により、さまざまなインタラクションタイプが可能です。
CVPR 2024で発表された最近の研究は、ビジュアルプロンプティングがデータアノテーションに必要な時間を大幅に削減する方法を強調しています。これは、人間のアノテーターが手動でポリゴンをトレースするのではなく、簡単なクリックでモデルの予測をリアルタイムで修正できるためです。
両方の手法がモデルの振る舞いをガイドすることを目的としていますが、ビジュアルプロンプティングとテキストベースの手法を区別することが重要です。テキストから画像への生成やゼロショットdetectは、意味記述(例:「赤い車を見つける」)を解釈するために自然言語処理(NLP)に依存します。しかし、言語は正確な空間位置や抽象的な形状を記述するには曖昧であるか、不十分である可能性があります。
ビジュアルプロンプティングは、指示をピクセル空間自体に根付かせることで、この曖昧さを解消します。例えば、医用画像解析では、放射線科医が疑わしい結節をクリックする方が、その正確な座標や不規則な形状をテキストで記述しようとするよりもはるかに正確です。多くの場合、最も強力なワークフローは、テキストを意味的フィルタリングに、ビジュアルプロンプトを空間的精度に使用する両方のアプローチを組み合わせます。これはマルチモーダル学習として知られる概念です。
ビジュアルプロンプティングの適応性により、多様な業界で急速に採用されています。
Ultralyticsエコシステムは、特にFastSAMやSAMのようなモデルを通じて、ビジュアルプロンプティングワークフローをサポートします。これらのモデルにより、開発者は点またはボックスの座標をプログラム的に渡してsegmentマスクを取得できます。
次の例は ultralytics 特定の座標に位置するオブジェクトをsegmentするようモデルに指示するために、画像にポイントプロンプトを適用するパッケージ。
from ultralytics import SAM
# Load the Segment Anything Model (SAM)
model = SAM("sam2.1_b.pt")
# Apply a visual point prompt to the image
# The 'points' argument accepts [x, y] coordinates
# labels: 1 indicates a foreground point (include), 0 indicates background
results = model("https://ultralytics.com/images/bus.jpg", points=[[300, 350]], labels=[1])
# Display the segmented result
results[0].show()
ビジュアルプロンプティングは、「プロンプト可能」なコンピュータビジョンへの移行を表しており、モデルはもはや静的な「ブラックボックス」ではなく、インタラクティブなツールとなります。この機能は、ユーザーフィードバックを取り入れることでモデルが急速に改善されるアクティブラーニングループにとって不可欠です。
これらの機能を本番環境に統合しようとしている開発者にとって、Ultralytics Platformは、データセットを管理し、動的な入力を処理できるモデルをデプロイするためのツールを提供します。研究が進むにつれて、視覚プロンプトと大規模言語モデル (LLM)との間でさらに緊密な統合が見られると予想され、現在テキストを処理するのと同じ流暢さで視覚入力について推論できるシステムが実現します。

未来の機械学習で、新たな一歩を踏み出しましょう。