Panoptic Segmentation
セマンティックセグメンテーションとインスタンスセグメンテーションを統合するパノプティックセグメンテーションを探求します。Ultralytics YOLO26がAIプロジェクトのためにどのように正確なシーン理解を実現するかを学びましょう。
パノプティックセグメンテーションは、コンピュータビジョン (CV)における包括的なタスクであり、セマンティックセグメンテーションとインスタンスセグメンテーションという2つの異なる画像解析手法を統合したものです。従来の手法では、「空」や「草」といった背景領域を分類するか、あるいは「車」や「人」といった特定の物体を検出するかのいずれかとしてこれらを個別に扱っていましたが、パノプティックセグメンテーションはこれらを単一の統合的なフレームワークにまとめ上げます。この手法では、画像内のすべてのピクセルに一意の値が割り当てられ、数えられる物体(「もの」と呼ばれます)と不定形の背景領域(「背景」と呼ばれます)を区別することで、シーン全体の完全な理解が可能になります。すべてのピクセルを特定し分類することで、この技術は個別の検出手法よりも人間に近い視覚認識を実現します。
Link to this section中心となる概念:背景 (Stuff) と もの (Things)#
パノプティックセグメンテーションを完全に理解するためには、それが処理する視覚情報の二分法について知ることが役立ちます。このタスクは視覚世界を主に2つのカテゴリーに分類します。
- 背景カテゴリー (Stuff Categories): これらは、数えることができない、質感や素材が類似した不定形の領域を表します。例としては、道路、水、草、空、壁などが挙げられます。パノプティック解析では、「道路セグメントA」と「道路セグメントB」を区別することに通常は意味がないため、すべての「道路」に属するピクセルは単一のセマンティック領域としてまとめられます。
- ものカテゴリー (Things Categories): これらは、明確な形状と境界を持つ、数えることが可能な物体です。例としては、歩行者、車両、動物、道具などが挙げられます。パノプティックモデルは、隣り合う2人の人間が融合した塊ではなく、それぞれが「人A」と「人B」として別々のインスタンスであると認識できるように、各「もの」を独自のエンティティとして識別しなければなりません。
この区別は、高度な人工知能 (AI)システムにおいて極めて重要であり、特定の物体とインタラクションを行いながら環境内を移動することを可能にします。
Link to this sectionパノプティックアーキテクチャの仕組み#
Modern panoptic segmentation architectures typically employ a powerful deep learning (DL) backbone, such as a Convolutional Neural Network (CNN) or a Vision Transformer (ViT), to extract rich feature representations from an image. The network generally splits into two branches or "heads":
-
セマンティックヘッド: このブランチはすべてのピクセルに対してクラスラベルを予測し、シーン内の「背景」に関する高密度なマップを生成します。
-
インスタンスヘッド: 同時に、このブランチは物体検出と同様の手法を用いて「もの」を局所化し、それらのマスクを生成します。
その後、融合モジュールまたは後処理ステップがこれらの出力間の競合(例えば、あるピクセルが「人」のインスタンスに属するのか、それとも背後の「背景」の壁に属するのかといった判断)を解決し、最終的な重複のないパノプティックセグメンテーションマップを生成します。
Link to this section実社会での応用#
パノプティックセグメンテーションが持つ全体論的な性質は、安全性や状況把握が最優先される業界において不可欠なものとなっています。
- 自動運転車: 自動運転車は、安全に走行するためにパノプティック認識に依存しています。セマンティックコンポーネントは走行可能な路面(道路)や境界(歩道)を識別し、インスタンスコンポーネントは歩行者や他の車両といった動的な障害物を追跡します。この統合された視覚情報は、複雑な交通管理シナリオにおいて、車両の計画アルゴリズムがより安全な判断を下すのに役立ちます。
- 医療画像解析: デジタル病理学では、組織サンプルを解析する際に、一般的な組織構造(背景)をセグメンテーションすると同時に、特定の細胞タイプや腫瘍(もの)をカウントして測定する必要があります。このような詳細な分類は、医師による正確な疾患の定量化と診断を支援します。
- ロボティクス: 家庭や倉庫といった構造化されていない環境で動作するサービスロボットは、移動可能な床(背景)と、操作や回避が必要な物体(インスタンス)を区別する必要があります。
Link to this sectionUltralyticsによるセグメンテーションの実装#
While full panoptic training can be complex, developers can achieve high-precision instance segmentation—a critical component of the panoptic puzzle—using Ultralytics YOLO26. This state-of-the-art model offers real-time performance and is optimized for edge deployment.
以下のPythonの例では、事前トレーニング済みのセグメンテーションモデルを読み込み、推論を実行して個別の物体を分離する方法を示します。
from ultralytics import YOLO
# Load the YOLO26 segmentation model
model = YOLO("yolo26n-seg.pt")
# Run inference on an image to segment individual instances
# The model identifies 'things' and generates pixel-perfect masks
results = model("https://ultralytics.com/images/bus.jpg")
# Display the resulting image with overlaid segmentation masks
results[0].show()学習データの管理やアノテーションプロセスの自動化を検討しているチーム向けに、Ultralytics Platformはデータセット管理とモデル学習のためのツールスイートを提供しています。セグメンテーションタスクではモデルが効果的に学習するために精密なピクセル単位のラベルが必要となるため、高品質なデータアノテーションが極めて重要です。
Link to this section関連用語の区別#
プロジェクトに適したモデルを選択するには、セグメンテーションタイプの違いを理解することが不可欠です。
- セマンティックセグメンテーション: ピクセルをカテゴリーに分類することのみに焦点を当てています。「このピクセルは何のクラスか?」という問い(例:木、空)には答えますが、同じクラス内の個々の物体を分離することはできません。2台の車が重なっている場合、それらは1つの大きな「車」の塊として表示されます。
- インスタンスセグメンテーション: 数えられる物体の検出とマスクのみに焦点を当てています。「これはどの物体か?」という問いには答えますが、通常、背景コンテキストは完全に無視されます。
- パノプティックセグメンテーション: 両者を組み合わせたものです。「これは何のピクセルか?」そして「それはどのオブジェクトインスタンスに属するか?」という問いに画像全体に対して答え、どのピクセルも分類漏れがないようにします。
これらのタスクで使用されるデータセット形式の詳細については、セグメンテーション性能を測定するための標準ベンチマークであるCOCOデータセットのドキュメントを確認してください。






