YOLO26の紹介: 次世代のビジョンAI。
Ultralytics
ビジョンAI

プロンプト可能なコンセプトセグメンテーションの理解

プロンプト可能なコンセプトセグメンテーション、従来の手法との違い、そしてYOLOE-26のような関連モデルがどのようにオープンボキャブラリー機能を可能にするかを探ります。

ABAbirami Vina
4 min read
画像内のオブジェクトのプロンプト可能なコンセプトセグメンテーション

Vision AIは急速に進化しており、現実世界の環境における画像や動画の解析に広く利用されています。例えば、交通管理システムから小売分析に至るまで、多様なアプリケーションがcomputer vision modelsと統合されています。

これらのアプリケーションの多くでは、物体検出モデルのようなVisionモデルが、車両、人物、設備など、あらかじめ定義された一連の物体を認識するようにトレーニングされています。トレーニング中、これらのモデルは多数のラベル付きサンプルを提示されることで、各物体がどのように見えるか、そしてシーン内で他の物体とどのように区別するかを学習します。

セグメンテーションタスクにおいて、モデルはさらに一歩踏み込み、これらの物体の周囲をピクセル単位で正確に輪郭抽出します。これにより、システムは画像内の各物体が正確にどこに位置しているかを把握できるようになります。

システムがトレーニングされた内容のみを認識すればよい場合には、これは非常にうまく機能します。しかし、現実世界の環境において、そのような状況は稀です。

視覚シーンは一般的に動的です。新しい物体や視覚的コンセプトが出現し、条件が変化するため、ユーザーは元のトレーニング構成に含まれていなかった物体をセグメント化したいと考えることがよくあります。

これらの制限は、セグメンテーションにおいて特に顕著です。Vision AIが進化し続ける中、繰り返しの再トレーニングなしで新しいコンセプトに適応できる、より柔軟なセグメンテーションモデルへのニーズが高まっています。そのため、プロンプト可能なコンセプトセグメンテーション(PCS)が注目を集めています。

固定された物体カテゴリリストに頼る代わりに、ユーザーはテキスト、視覚的プロンプト、またはサンプル画像を使って、セグメント化したい対象を記述できます。これにより、トレーニング中に明示的に含まれていなかったコンセプトであっても、モデルはそれと一致するすべての領域を特定してセグメント化することが可能になります。

本記事では、プロンプト可能なコンセプトセグメンテーションがどのように機能し、従来の手法とどう異なり、今日どこで活用されているのかを探ります。

Link to this sectionプロンプト可能なコンセプトセグメンテーションとは?#

ほとんどの場合、セグメンテーションモデルは限られた種類の物体を認識するようにトレーニングされます。これは、Vision AIシステムが特定の物体セットのみを検出・セグメント化する必要がある場合にはうまく機能します。

しかし、現実世界のアプリケーションでは、視覚シーンは動的です。新しい物体が出現し、タスク要件が変化するため、ユーザーは元のラベルセットに含まれていなかったコンセプトをセグメント化する必要に迫られることがよくあります。このような状況に対応するには、通常、高品質な新しいデータとアノテーションを収集し、モデルを再トレーニングする必要があり、コストの増加とデプロイの遅延を招きます。

プロンプト可能なコンセプトセグメンテーションは、ユーザーが固定されたラベルリストから選択するのではなく、モデルに何を検索すべきかを指示できるようにすることで、この問題を解決します。ユーザーが探している物体や概念を記述すると、モデルが画像内で一致するすべての領域をハイライト表示します。これにより、ユーザーの意図を画像内の実際のピクセルに結びつけることがはるかに容易になります。

画像内のオブジェクトをセグメント化するためのコンセプトプロンプトの使用

図1:セグメンテーションにコンセプトプロンプトを使用する様子 (Source)

Link to this sectionさまざまなタイプのプロンプトでセグメンテーションをガイドする#

プロンプト可能なコンセプトセグメンテーションをサポートするモデルは、さまざまな種類の入力に対応できるため柔軟です。つまり、テキスト記述、視覚的なヒント、またはサンプル画像を通じてなど、モデルに探すべき対象を指示する方法は一つではありません。

各アプローチを詳しく見ていきましょう。

  • テキストプロンプト: 「スクールバス」や「腫瘍領域」といった短いフレーズを使用して、セグメント化するコンセプトを記述できます。モデルは言葉の意味を解釈し、一致する領域を特定します。
  • 視覚プロンプト: これらのプロンプトは、画像内の点、ボックス、または大まかなスケッチをヒントとして使用します。これらの手がかりが探すべき場所をガイドし、最終的な境界線を形成するのに役立ちます。
  • 画像エグゼンプラー: 参照画像や小さなクロップ画像が、関心のあるコンセプトを表します。モデルは視覚的に類似した領域を検索し、その外観に基づいてセグメント化します。

Link to this sectionPCSと従来のセグメンテーションの違い#

プロンプト可能なコンセプトセグメンテーションの仕組みを掘り下げる前に、まずはそれを様々な従来の物体セグメンテーション手法と比較してみましょう。

PCSは、オープンボキャブラリーでプロンプト駆動型のモデルを実現します。プロンプトを通じて記述された新しいアイデアを扱えますが、従来のセグメンテーションではそれはできません。従来のセグメンテーションにはいくつかの種類があり、それぞれ独自の前提条件と制限があります。

ここでは、従来のセグメンテーションの主要なタイプをいくつか紹介します。

  • Semantic segmentation: 画像内のすべてのピクセルが、道路、建物、人などのカテゴリとしてラベル付けされます。同じラベルを持つピクセルはすべてグループ化されるため、モデルは個々の物体インスタンスを分離しません。
  • Instance segmentation: モデルは個々の物体を識別してセグメント化するため、2人の人間や2台の車はそれぞれ別々のアイテムとして扱われます。
  • Panoptic segmentation: この手法はセマンティックセグメンテーションとインスタンスセグメンテーションを組み合わせ、背景領域と個々の物体の両方をカバーすることで、シーンの全体像を提供します。

これらのアプローチはすべて、あらかじめ定義された物体カテゴリのリストに依存しています。その範囲内ではうまく機能しますが、範囲外のコンセプトを扱うのは苦手です。新しい特定の物体をセグメント化する必要がある場合は、通常、追加のトレーニングデータとモデルのファインチューニングが必要になります。

PCSはその現状を変えることを目指しています。事前に定義されたカテゴリに縛られるのではなく、推論時に画像内でセグメント化したい内容を記述できるようになります。

Link to this sectionPCSモデルの進化#

次に、セグメンテーションモデルがどのようにしてプロンプト可能なコンセプトセグメンテーションへと進化したのかを見ていきましょう。

セグメンテーションの転換点となった人気の基盤モデルが、2023年に発表されたSAM(Segment Anything Model)です。SAMは、あらかじめ定義された物体カテゴリに頼る代わりに、点やバウンディングボックスといったシンプルな視覚プロンプトを使用してセグメンテーションをガイドすることを可能にしました。

SAMの登場により、ユーザーはラベルを選択する必要がなくなりました。単に物体がどこにあるかを指示するだけで、モデルがそのマスクを生成してくれました。これによりセグメンテーションはより柔軟になりましたが、ユーザーは依然としてモデルに「どこを見るべきか」を示す必要がありました。

2024年にリリースされたSAM 2は、より複雑なシーンを処理し、プロンプト可能なセグメンテーションを動画にまで拡張することで、このアイデアをさらに発展させました。照明条件、物体の形状、動きの変化に対する堅牢性を向上させましたが、セグメンテーションのガイドには主に視覚プロンプトに依存していました。

SAM 3モデルは、この進化における最新のステップです。昨年リリースされたSAM 3は、視覚的理解と言語ガイダンスを組み合わせた統合モデルであり、画像および動画のセグメンテーションタスク全体で一貫した動作を可能にします。

SAM 3を使用すると、ユーザーは点や描画のプロンプトに限定されることはありません。代わりに、セグメント化したい内容をテキストで記述でき、モデルが画像や動画フレームからその記述に一致する領域を検索します。

セグメンテーションは固定された物体カテゴリではなくコンセプトによってガイドされるため、さまざまなシーンや時間の経過を通じてオープンボキャブラリーでの利用をサポートします。実際、SAM 3は、Wikidataなどのソースから派生し、大規模なトレーニングデータを通じて拡張されたオントロジーに基づいた、広大で学習済みのコンセプト空間上で動作します。

単一画像をセグメント化するためのSAM 3へのプロンプト

図2:SAM 3に対してプロンプトを入力し、単一の画像をセグメント化する例 (Source)

主に幾何学的なプロンプトに依存していた初期バージョンと比較して、SAM 3はより柔軟なコンセプト主導型のセグメンテーションに向けた一歩を表しています。これにより、関心のある物体やアイデアが変化し、必ずしも事前に定義できないような現実世界のアプリケーションに適しています。

Link to this sectionプロンプト可能な視覚セグメンテーションの仕組みを探る#

では、プロンプト可能なコンセプトセグメンテーションはどのように機能するのでしょうか。それは、画像と、多くの場合テキストのペアからなる膨大なコレクションでトレーニングされた、大規模な事前トレーニング済みVisionモデルおよびvision language modelsに基づいています。このトレーニングにより、モデルは一般的な視覚パターンと意味論的な意味を学習できます。

ほとんどのPCSモデルは、画像全体を一度に処理して領域間の関連性を理解するTransformerベースのアーキテクチャを使用しています。Vision Transformerは画像から視覚的特徴を抽出し、テキストエンコーダーは単語をモデルが処理可能な数値表現に変換します。

トレーニング中、これらのモデルは、正確な物体境界を定義するピクセル単位のマスク、物体のおおよその位置を示すバウンディングボックス、画像内に何が写っているかを記述する画像レベルのラベルなど、さまざまなタイプの教師データから学習できます。異なる種類のラベル付きデータを使用したトレーニングは、モデルが細かい詳細とより広範な視覚的コンセプトの両方を捉えるのに役立ちます。

推論時、つまりモデルが実際に予測を行う際には、PCSはプロンプト駆動型のプロセスに従います。ユーザーは、テキスト記述、点やボックスといった視覚的なヒント、あるいはサンプル画像を通じてガイダンスを提供します。モデルはプロンプトと画像の両方を共有の内部表現(エンベディング)にエンコードし、記述されたコンセプトと一致する領域を特定します。

その後、マスクデコーダーがこの共有表現を正確なピクセル単位のセグメンテーションマスクに変換します。モデルは視覚的特徴と意味論的な意味を関連付けているため、トレーニング中に明示的に含まれていなかった新しいコンセプトであってもセグメント化できます。

また、多くの場合、プロンプトを調整したり追加のガイダンスを追加したりすることで出力を改善できるため、複雑なシーンや曖昧なシーンへの対処にも役立ちます。この反復的なプロセスは、デプロイ中の実用的な最適化をサポートします。

プロンプト可能なコンセプトセグメンテーションモデルは、一般的に、未知のコンセプトをどれだけうまくセグメント化できるか、また異なるシーンでどれだけ堅牢に機能するかという点で評価されます。ベンチマークでは、現実世界のデプロイ要件を反映し、マスクの品質、汎用性、計算効率に焦点が当てられることがよくあります。

Link to this sectionPCSの現実世界でのユースケース#

次に、プロンプト可能なコンセプトセグメンテーションがすでに使用され、実際のインパクトを与え始めている場所を見てみましょう。

Link to this section医療画像診断のための柔軟な画像セグメンテーション#

医療画像には多くの生物学的構造、疾患、スキャンタイプが含まれており、新しい症例が日々現れています。従来のセグメンテーションモデルは、この多様性に追いつくのに苦労しています。

PCSは、臨床医が限られた固定リストから選択するのではなく、探したいものを記述できるようにするため、この領域に自然に適合します。テキストフレーズや視覚プロンプトを使用することで、PCSは、新しいタスクごとにモデルを再トレーニングすることなく、臓器や懸念領域を直接セグメント化するために使用できます。これにより、多様な臨床ニーズへの対応が容易になり、手動でのマスク描画の必要性が軽減され、多くの画像タイプにまたがって機能します。

素晴らしい例として、医療画像におけるテキストプロンプト可能なPCSのためにSAM 3アーキテクチャを適合させたMedSAM-3が挙げられます。このモデルには、肝臓や腎臓のような臓器名や、腫瘍や病変のような病変関連のコンセプトといった、明示的な解剖学的および病理学的用語をプロンプトとして入力できます。プロンプトが与えられると、モデルは医療画像内の対応する領域を直接セグメント化します。

MedSAM-3は、テキストと画像の双方について推論できるマルチモーダル大規模言語モデル(MLLMまたはマルチモーダルLLM)も統合しています。これらのモデルは「エージェント・イン・ザ・ループ」構成で動作し、より困難なケースでの精度を向上させるために結果が反復的に改善されます。

医療画像におけるテキストプロンプトによる腫瘍セグメンテーションのためのMedSAM-3パイプライン

図3:医療画像におけるテキストプロンプトによる腫瘍セグメンテーションのためのMedSAM-3パイプライン (Source)

MedSAM-3はX線、MRI、CT、超音波、動画データ全体で優れたパフォーマンスを発揮し、実際の臨床現場でPCSがいかにしてより柔軟で効率的な医療画像ワークフローを実現できるかを示しています。

Link to this sectionロボット手術と自動化のための適応型セグメンテーション#

Robotic surgeryは、ツールを追跡し、急速に変化する手術シーンを理解するためにVisionシステムに依存しています。器具は素早く動き、照明は変化し、新しいツールがいつでも現れる可能性があるため、定義済みのラベルシステムを維持するのは困難です。

PCSを使用すれば、ロボットはリアルタイムでツールを追跡し、カメラをガイドし、手術の手順に従うことができます。これにより手動のラベル付けが減り、システムを異なる処置に適応させやすくなります。外科医や自動化システムは、「グリッパー」、「メス」、「カメラツール」といったテキストプロンプトを使用して、画像内で何をセグメント化すべきかを指示できます。

ロボット手術中の手術器具のセグメンテーション

図4:ロボット手術中に使用される手術器具のセグメンテーション (Source)

Link to this sectionUltralytics YOLOE-26によるオープンボキャブラリーセグメンテーション#

プロンプト可能なコンセプトセグメンテーションに関連するもう一つの興味深い最先端モデルが、当社のUltralytics YOLOE-26です。このモデルは、オープンボキャブラリーでプロンプト駆動型のセグメンテーションをUltralytics YOLOモデルファミリーにもたらします。

YOLOE-26はUltralytics YOLO26アーキテクチャ上に構築されており、オープンボキャブラリーのインスタンスセグメンテーションをサポートしています。YOLOE-26を使用すると、ユーザーはいくつかの方法でセグメンテーションをガイドできます。

テキストプロンプトをサポートしており、視覚的に根拠のある短いフレーズでターゲット物体を指定できるほか、画像の手がかりに基づいて追加のガイダンスを提供する視覚プロンプトもサポートしています。さらに、YOLOE-26にはゼロショット推論用のプロンプト不要モードが含まれており、ユーザーのプロンプトを必要とせずに組み込みボキャブラリーから物体を検出しセグメント化します。

YOLOE-26は、物体カテゴリが変化する可能性がある一方で、低レイテンシと信頼性の高いスループットが不可欠な、動画分析、ロボット知覚、エッジベースシステムなどのアプリケーションに最適です。また、アノテーションプロセスの一部を自動化してワークフローを効率化するため、データラベル付けやデータセットキュレーションにも特に役立ちます。

Link to this sectionプロンプト可能なコンセプトセグメンテーションの長所と短所#

プロンプト可能なコンセプトセグメンテーションを使用する主な利点は以下の通りです。

  • 迅速なイテレーションとプロトタイピング: データセットの再構築やモデルの再トレーニングを行うのではなく、プロンプトを変更することで新しいセグメンテーションタスクを迅速にテストできるため、実験と開発がスピードアップします。
  • ドメインを超えた適応性: 同一のPCSモデルを、ワークフローへの変更を最小限に抑えながら、医療画像、ロボット工学、動画分析など、異なるドメインに適用できることがよくあります。
  • インタラクティブな改良: ユーザーはプロンプトを繰り返し調整したりガイダンスを追加したりして結果を改善できるため、再トレーニングなしで曖昧なシーンやエッジケースに対処しやすくなります。

PCSには明確な利点がある一方で、考慮すべき制限もいくつかあります。

  • プロンプト感度: プロンプトの書き方や提示方法のわずかな変化が出力に影響を与える可能性があります。プロンプトが曖昧すぎたり、あるいは具体的すぎたりすると、不完全または不正確なセグメンテーションにつながる場合があります。
  • 予測しにくい動作: モデルは固定ラベルから選択するのではなくプロンプトを解釈するため、シーンや入力によって結果が大きく異なる可能性があり、厳密に制御されたパイプラインでは問題になる可能性があります。
  • 曖昧なコンセプト解釈: 一部のコンセプトは主観的であったり、定義が曖昧であったりするため、ユーザー間や画像間でセグメンテーション結果に一貫性がなくなる可能性があります。
  • 非常に特定のターゲットに対する信頼性の制限: プロンプトベースのモデルは、微妙な特徴を正確かつ一貫して特定する必要がある欠陥検出のような、狭く定義されたインスタンス固有のタスクに対しては、一般的に信頼性が低くなります。

Link to this sectionプロンプト可能なセグメンテーションと従来のセグメンテーションの選択#

プロンプト可能なセグメンテーションを検討する際、どのようなアプリケーションに最適か、また、YOLO26のような従来のコンピュータビジョンモデルが解決しようとしている問題に対して、いつ適しているのかと疑問に思うかもしれません。プロンプト可能なセグメンテーションは一般的な物体にはうまく機能しますが、非常に正確で一貫した結果を必要とするユースケースには適していません。

欠陥検出が良い例です。製造現場では、欠陥はしばしば小さく繊細であり、小さなひっかき傷、へこみ、不整合、または表面の不規則性などが挙げられます。これらは材料、照明、製造条件によっても大きく異なります。

これらの問題はシンプルなプロンプトで記述するのが難しく、汎用モデルが確実に検出するのはさらに困難です。全体として、プロンプトベースのモデルは欠陥を見逃したり不安定な結果を生成したりする傾向がある一方、欠陥データで特別にトレーニングされたモデルは、実際の検査システムにおいて、はるかに信頼性が高くなります。

Link to this section重要なポイント#

プロンプト可能なコンセプトセグメンテーションは、新しい物体やアイデアが常に現れる現実世界にVisionシステムを適応させやすくします。固定ラベルに縛られる代わりに、ユーザーはセグメント化したい内容を記述するだけでモデルに作業を任せることができ、時間を節約して手作業を削減できます。依然として制限はありますが、PCSは実際にセグメンテーションがどのように使用されるかを変えつつあり、将来のVisionシステムの中核部分になる可能性が高いでしょう。

私たちのGitHub repositoryにアクセスし、communityに参加して、AIについての詳細を学びましょう。当社のソリューションページでAI in roboticscomputer vision in manufacturingについて学び、our licensing optionsをチェックして、今すぐVision AIを使い始めましょう!

Explore solutions

Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。
詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。
詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。
詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。
詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。
詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。
詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。
詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。
詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。
詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。
詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。
詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。
詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。
詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。
詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。
詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。
詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。
詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。
詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。
詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。
詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。
詳細はこちら

AIの未来を共に築き上げましょう!

機械学習の未来とともに旅を始めましょう