YOLO Vision Shenzhen
深セン
今すぐ参加
用語集

全景セグメンテーション

semantic segmentationとinstance segmentationを統合するパノプティックsegmentationを探ります。Ultralytics YOLO26がAIプロジェクトにおいて、いかに正確なシーン理解を実現するかを学びましょう。

パノプティックセグメンテーションは、セマンティックセグメンテーションとインスタンスセグメンテーションという2つの異なる画像分析形式を統合する、包括的なコンピュータビジョン (CV)タスクです。従来の手法では、「空」や「草」のような背景領域を一般的に分類したり、「車」や「人」のような特定のオブジェクトを検出したりと、これらのタスクを個別に扱っていましたが、パノプティックセグメンテーションはそれらを単一のまとまりのあるフレームワークに統合します。このアプローチは画像内のすべてのピクセルに一意の値を割り当て、数えられるオブジェクト(「things」と呼ばれる)と不定形の背景領域(「stuff」と呼ばれる)を区別する完全なシーン理解を提供します。すべてのピクセルが考慮され、分類されることを保証することで、この手法は個別の検出手法よりも人間の視覚認識をより密接に模倣します。

核心概念:モノと物

パノプティックsegmentを完全に理解するには、それが処理する視覚情報の二分法を理解することが役立ちます。このタスクは視覚世界を2つの主要なカテゴリに分割します。

  • Stuff Categories: これらは、数えることができない、類似した質感や素材の不定形な領域を表します。例としては、道路、水、草、空、壁などがあります。パノプティック分析では、「道路」に属するすべてのピクセルは単一のセマンティック領域にグループ化されます。これは、「道路segment A」と「道路segment B」を区別することが一般的に無関係であるためです。
  • Things Categories: これらは、明確な形状と境界を持つ数えられるオブジェクトです。例としては、歩行者、車両、動物、ツールなどがあります。パノプティックモデルは、各「thing」をユニークなエンティティとして識別し、並んで立っている2人の人物が、結合された塊ではなく、別々のインスタンス(例:「人物A」と「人物B」)として認識されることを保証する必要があります。

この区別は、高度な人工知能 (AI)システムにとって極めて重要であり、環境をナビゲートしながら特定のオブジェクトと同時に相互作用することを可能にします。

パノプティックアーキテクチャはどのように機能するか

現代のパノプティックセグメンテーションアーキテクチャは、通常、強力な深層学習(DL)バックボーン、例えば畳み込みニューラルネットワーク(CNN)Vision Transformer(ViT)などを用いて、画像から豊富な特徴表現を抽出します。ネットワークは通常、2つのブランチまたは「ヘッド」に分かれます。

  1. セマンティックヘッド: このブランチは、すべてのピクセルに対してクラスラベルを予測し、シーン内の「stuff」の密なマップを生成します。
  2. インスタンスヘッド: 同時に、このブランチは物体検出に似た技術を使用して、「もの」を局所化し、それらのマスクを生成します。

融合モジュールまたは後処理ステップは、これらの出力間の競合(例えば、あるピクセルが「人物」インスタンスに属するか、それともその背後にある「背景」の壁に属するかを決定するなど)を解決し、最終的な重複のないパノプティックセグメンテーションマップを生成します。

実際のアプリケーション

パノプティックセグメンテーションの包括的な特性は、安全性とコンテキストが最重要視される業界にとって不可欠なものとなっています。

  • 自律走行車: 自律走行車は、安全に走行するためにパノプティック認識に依存しています。セマンティックコンポーネントは走行可能な路面(道路)と境界(歩道)を識別し、インスタンスコンポーネントは歩行者や他の車両のような動的な障害物をtrackします。この統合された視点により、車両のプランニングアルゴリズムは複雑な交通管理シナリオにおいて、より安全な意思決定を行うことができます。
  • 医療画像解析 デジタル病理学において、組織サンプルの解析には、一般的な組織構造(物質)のセグメンテーションと並行して、 特定の細胞タイプや腫瘍(対象物)の計数・測定が必要となる。この詳細な分解により、 医師は疾患の定量化と診断を正確に行うことができる。
  • ロボティクスサービスロボット 家庭や倉庫などの構造化されていない環境で動作するサービスロボットは、 移動可能な床面(背景)と、操作または回避が必要な物体(インスタンス)を 区別する必要がある。

UltralUltralyticsによるセグメンテーションの実装

完全なパノプティックトレーニングは複雑になることがありますが、開発者はUltralytics YOLO26を使用して、パノプティックパズルの重要な構成要素である高精度なインスタンスsegmentationを達成できます。この最先端モデルはリアルタイム性能を提供し、エッジデプロイメント向けに最適化されています。

Python 、事前学習済みセグメンテーションモデルを読み込み、 個別のオブジェクトを分離するための推論を実行する方法を示しています:

from ultralytics import YOLO

# Load the YOLO26 segmentation model
model = YOLO("yolo26n-seg.pt")

# Run inference on an image to segment individual instances
# The model identifies 'things' and generates pixel-perfect masks
results = model("https://ultralytics.com/images/bus.jpg")

# Display the resulting image with overlaid segmentation masks
results[0].show()

トレーニングデータの管理とアノテーションプロセスの自動化を目指すチーム向けに、Ultralytics データセット管理とモデルトレーニングのためのツール群を提供します。セグメンテーションタスクでは高品質なデータアノテーションが不可欠であり、モデルが効果的に学習するには正確なピクセルレベルのラベルが必要となります。

関連用語の区別

segmentationタイプのニュアンスを理解することは、プロジェクトに適したモデルを選択するために不可欠です。

  • セマンティックセグメンテーション: ピクセルをカテゴリに分類することのみに焦点を当てます。「このピクセルは何のクラスか?」(例: 木、空) に答えますが、同じクラスの個々のオブジェクトを分離することはできません。2台の車が重なっている場合、それらは1つの大きな「車」の塊として表示されます。
  • インスタンスセグメンテーション: 数えられるオブジェクトのdetectとマスキングのみに焦点を当てます。「これはどのオブジェクトか?」という問いに答えますが、通常は背景のコンテキストを完全に無視します。
  • パノプティックセグメンテーション:両方を組み合わせる。画像全体に対して「このピクセルは何なのか?」と「どのオブジェクトインスタンスに属するのか?」に答え、分類されないピクセルを一切残さない。

これらのタスクで使用されるデータセット形式のさらなる探求のために、segmentation性能を測定するための標準的なベンチマークであるCOCOデータセットのドキュメントを確認できます。

共にAIの未来を築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。