深圳Yolo 视觉
深圳
立即加入
词汇表

全景分割

探索全景分割技术,实现语义分割与实例分割的统一。了解Ultralytics 如何为人工智能项目提供精准的场景理解能力。

全景分割是一项综合性的计算机视觉(CV)任务,它将两种截然不同的图像分析形式——语义分割与实例分割——统一起来。传统方法分别处理这些任务:要么对"天空"或"草地"等背景区域进行泛化分类,要么检测"汽车"或"人"等特定物体;而全景分割则将它们整合到一个统一的框架中。 该方法为图像中每个像素分配唯一值,从而实现对场景的完整理解——既能区分可计数物体(称为"事物"),又能识别无定形背景区域(称为"杂物")。通过确保每个像素都被计数和分类,该技术比孤立的检测方法更贴近人类视觉感知机制。

核心概念:物品与事物

要全面理解全景式分段技术,有必要先了解其处理的视觉信息二元性。 该技术将视觉世界划分为两大基本类别:

  • 物体类别这些代表具有相似纹理或材质的非可计数区域。例如道路、水域、草地、天空和墙壁。 在全景分析中,所有属于"道路"的像素会被归入单一语义区域,因为区分"segment "与"segment "通常无关紧要。
  • 物体类别这些是具有明确几何形状和边界的可计数对象。例如行人、车辆、动物和工具。全景模型必须将每个"物体"识别为独立实体,确保并排站立的两个人被识别为独立个体(例如"人A"和"人B"),而非合并后的模糊区域。

这种区分对于高级人工智能(AI)系统至关重要, 使其能够在导航环境的同时与特定物体进行交互。

全视角架构如何运作

现代全景分割架构通常采用强大的深度学习(DL)骨干网络,例如卷积神经网络(CNN)视觉Transformer ViT),以从图像中提取丰富的特征表示。该网络通常分为两个分支或"头部":

  1. 语义头:该分支为每个像素预测一个类别标签,生成场景中"物体"的密集分布图。
  2. 实例头:同时,该分支采用类似于 目标检测的技术来定位"事物" 并为其生成遮罩。

融合模块或后处理步骤随后会解决这些输出结果之间的冲突——例如判定某个像素点属于"人物"实例还是其身后的"背景"墙壁——从而生成最终的、无重叠的全景分割图

实际应用

全景式分段的整体性使其在安全与情境至关重要的行业中不可或缺。

  • 自动驾驶车辆 自动驾驶汽车依靠全景感知技术实现安全导航。语义组件识别可通行路面(道路)与边界(人行道),实例组件则追踪行人及其他车辆等动态障碍物。这种统一视图有助于车辆规划算法在复杂交通管理场景中做出更安全的决策。
  • 医学图像分析 在数字病理学中,分析组织样本通常需要对整体组织结构(物质)进行分割, 同时对特定细胞类型或肿瘤(事物)进行计数与测量。这种精细分解有助于 医生实现精准的疾病量化与诊断。
  • 机器人学服务机器人 在非结构化环境(如家庭或仓库)中作业时,需要区分可通行地面(背景)与需操作或避让的物体(实例)。

使用Ultralytics实现用户分群

虽然完整的全视角训练可能较为复杂,但开发者Ultralytics 实现高精度实例分割——这是全视角训练的关键环节。该尖端模型具备实时处理能力,并针对边缘部署进行了优化。

以下Python 演示了如何加载预训练的分割模型并运行推理以分离 不同对象:

from ultralytics import YOLO

# Load the YOLO26 segmentation model
model = YOLO("yolo26n-seg.pt")

# Run inference on an image to segment individual instances
# The model identifies 'things' and generates pixel-perfect masks
results = model("https://ultralytics.com/images/bus.jpg")

# Display the resulting image with overlaid segmentation masks
results[0].show()

对于希望管理训练数据并自动化标注流程的团队Ultralytics 提供了一套用于数据集管理和模型训练的工具。高质量的数据标注对分割任务至关重要,因为模型需要精确的像素级标签才能有效学习。

区分相关术语

理解不同分段类型的细微差别对于为项目选择合适的模型至关重要:

  • 语义分割 仅专注于将像素分类归入类别。它回答"这个像素属于哪个类别?"(例如树、天空),但无法分离同类别的个体对象。若两辆汽车发生重叠,它们将显示为一个大型的"汽车"斑块。
  • 实例分割 仅专注于检测和遮罩可计数对象。它回答"这是哪个对象?",但通常完全忽略背景上下文。
  • 全景分割:兼具两者特性。它能解答"这个像素是什么?"以及"它属于哪个物体实例?"这两个问题,覆盖整幅图像,确保每个像素都得到分类。

若需进一步探索这些任务中使用的数据集格式,可查阅COCO 文档,该数据集是衡量分割性能的标准基准。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入