パノプティックセグメンテーションを探求し、意味的セグメンテーションとインスタンスセグメンテーションを統合する。Ultralytics がAIプロジェクト向けに精密なシーン理解を実現する方法を学ぶ。
パノプティックセグメンテーションは、 意味的セグメンテーションとインスタンスセグメンテーションという 二つの異なる画像解析手法を統合する包括的な コンピュータビジョン(CV)課題である。従来の手法では これらの課題を別々に扱う——「空」や「草」のような背景領域を 一般的に分類するか、「車」や「人」のような特定物体を 検出するか——が、パノプティックセグメンテーションは それらを単一の統合的な枠組みに統合する。 この手法は画像内の各ピクセルに固有の値を割り当て、 数え上げ可能な物体(「もの」と呼ばれる)と 不定形の背景領域(「もの」と呼ばれる)を区別する 完全なシーン理解を提供する。各ピクセルが確実に 分類されることで、この技術は孤立した検出手法よりも 人間の視覚的知覚をより忠実に模倣する。
パノプティックなセグメンテーションを完全に理解するには、それが処理する視覚情報の二分法を理解することが役立つ。 このタスクは視覚世界を二つの主要なカテゴリーに分割する:
この区別は高度な人工知能(AI)システムにとって極めて重要であり、 環境をナビゲートしながら同時に特定の物体と相互作用することを可能にする。
現代の汎用セグメンテーションアーキテクチャは通常、画像から豊富な特徴表現を抽出するために、畳み込みニューラルネットワーク(CNN)やビジョントランスフォーマー(ViT)といった強力な深層学習(DL)バックボーンを採用する。ネットワークは一般的に二つの分岐、すなわち「ヘッド」に分岐する:
融合モジュールまたは後処理ステップが、これらの出力間の矛盾を解決する。例えば、あるピクセルが「人物」インスタンスに属するのか、それとも背後の「背景」壁に属するのかを決定し、最終的な重複のない全景セグメンテーションマップを生成する。
パノプティックセグメンテーションの包括的な性質は、安全性と文脈が最優先される産業において不可欠である。
完全なパノプティックトレーニングは複雑になり得るが、Ultralytics を活用することで、パノプティックパズルの重要な構成要素である高精度インスタンスセグメンテーションを実現できる。この最先端モデルはリアルタイム性能を提供し、エッジデプロイメント向けに最適化されている。
Python 、事前学習済みセグメンテーションモデルを読み込み、 個別のオブジェクトを分離するための推論を実行する方法を示しています:
from ultralytics import YOLO
# Load the YOLO26 segmentation model
model = YOLO("yolo26n-seg.pt")
# Run inference on an image to segment individual instances
# The model identifies 'things' and generates pixel-perfect masks
results = model("https://ultralytics.com/images/bus.jpg")
# Display the resulting image with overlaid segmentation masks
results[0].show()
トレーニングデータの管理とアノテーションプロセスの自動化を目指すチーム向けに、Ultralytics データセット管理とモデルトレーニングのためのツール群を提供します。セグメンテーションタスクでは高品質なデータアノテーションが不可欠であり、モデルが効果的に学習するには正確なピクセルレベルのラベルが必要となります。
セグメンテーションの種類間のニュアンスを理解することは、プロジェクトに適したモデルを選択する上で極めて重要です:
これらのタスクで使用されるデータセット形式の詳細については、セグメンテーション性能を測定する標準的なベンチマークであるCOCO ドキュメントを参照してください。