対話型セグメンテーションがヒューマン・イン・ザ・ループのプロンプトを使用して物体を分離する方法を学びましょう。Ultralytics YOLO26とUltralytics Platformをタスクに活用する方法を発見してください。
インタラクティブセグメンテーションは、人間ユーザーがクリック、バウンディングボックス、テキストプロンプトなどの連続的または単発的な入力を提供し、AIモデルが画像内の特定のオブジェクトを分離するのをガイドする、コンピュータービジョンにおける高度に協調的なアプローチです。完全に自動化された手法とは異なり、このヒューマン・イン・ザ・ループ技術により、ユーザーはセグメント化する必要があるものを正確に定義できるため、曖昧な視覚データ、重なり合うオブジェクト、または未知のクラスを扱う場合に特に価値があります。過去数年間で、基盤モデルの導入によりこのプロセスの速度と精度が劇的に向上し、データアノテーションと精密画像処理にとって不可欠なツールとなっています。
その核となるワークフローはプロンプト可能なコンセプトセグメンテーションに依存しており、モデルはユーザーの指示を解釈してピクセルパーフェクトなマスクを生成します。ユーザーは、選択したい前景オブジェクトに「正の」クリックを置き、除外したい背景領域に「負の」クリックを置くことができます。Segment Anything Model (SAM)とその後継であるMeta SAM 3のような高度なモデルは、多様なジェスチャータイプ [1]、バウンディングボックス、さらにはテキスト記述を受け入れることで、視覚検索をさらに進化させます。モデルはこれらのプロンプトに基づいて最適な境界を計算し、ユーザーは望ましい精度が達成されるまで追加のクリックでマスクを繰り返し洗練することができます。
インタラクティブセグメンテーションは、人間の専門知識とAIの効率性を融合させることで、多くの産業におけるワークフローを変革しています。
両方の概念はピクセルレベルでオブジェクトを分離することを含みますが、それらは異なる運用目的を果たします。インスタンスセグメンテーションは通常、Ultralytics YOLO26のようなモデルが、ユーザーの介入なしに事前定義されたクラス(例:「車」、「人」、「犬」)をdetectし、輪郭を描く完全に自動化されたプロセスです。これがどのように機能するかについては、インスタンスセグメンテーションのガイドで詳しく学ぶことができます。
対照的に、インタラクティブセグメンテーションは、事前に定義されたクラスに厳密には依存しません。これはクラスに依存せず、ユーザーが指し示すものをセグメント化するため、Ultralytics Platformのようなツールを使用して新しいオブジェクトを迅速にアノテーションし、カスタムデータセットに追加する必要があるアクティブラーニングパイプラインに最適です。
自身のプロジェクトでインタラクティブセグメンテーションを簡単に実装できます
PyTorch および ultralytics pythonパッケージ。この例では、 FastSAM バウンディングボックスプロンプトを提供することで、特定のオブジェクトをsegmentするため。
from ultralytics import FastSAM
# Load a pretrained FastSAM model
model = FastSAM("FastSAM-s.pt")
# Perform interactive segmentation using a bounding box prompt [x1, y1, x2, y2]
results = model("path/to/image.jpg", bboxes=[100, 100, 300, 300])
# Display the segmented result on screen
results[0].show()
このスニペットは、シンプルな空間プロンプトがモデルを関心領域の分離に直接導き、複雑な画像segmentationタスクを最小限のコードで効率化する方法を示しています。

未来の機械学習で、新たな一歩を踏み出しましょう。