深圳Yolo 视觉
深圳
立即加入
词汇表

全景分割

探索全景分割以统一语义分割和实例分割。了解Ultralytics YOLO26如何为AI项目提供精确的场景理解。

全景分割是一项全面的 计算机视觉 (CV) 任务,它统一了两种不同的图像分析形式:语义分割和实例分割。传统方法通常将这些任务分开处理——要么对“天空”或“草地”等背景区域进行一般性 classify,要么 detect “汽车”或“人”等特定对象——而全景分割则将它们结合到一个单一、连贯的框架中。这种方法为图像中的每个像素分配一个唯一值,提供完整的场景理解,区分可计数对象(称为“事物”)和无定形背景区域(称为“物质”)。通过确保每个像素都被考虑并 classify,这项技术比孤立的 detect 方法更能模拟人类的视觉感知。

核心概念:背景物与独立物体

为充分理解全景分割,了解其处理的视觉信息的二分法是很有帮助的。该任务将视觉世界分为两大主要类别:

  • 物质类别这些代表了具有相似纹理或材料的非结构化区域,它们是不可数的。例子包括道路、水、草地、天空和墙壁。在全景分割分析中,所有属于“道路”的像素都被归为一个单一的语义区域,因为区分“道路段A”和“道路段B”通常是不相关的。
  • 实体类别这些是具有明确几何形状和边界的可计数对象。示例包括行人、车辆、动物和工具。全景分割模型必须将每个“实体”识别为独特的个体,确保并排站立的两个人被识别为独立的实例(例如,“人物 A”和“人物 B”),而不是一个合并的团块。

这种区分对于先进的 人工智能 (AI) 系统至关重要,使其能够在环境中导航的同时与特定对象进行交互。

全景架构的工作原理

现代全景分割架构通常采用强大的 深度学习 (DL) 主干网络,例如 卷积神经网络 (CNN)Vision Transformer (ViT),从图像中提取丰富的特征表示。该网络通常分为两个分支或“头部”:

  1. 语义头部:该分支为每个像素预测一个类别标签,生成场景中“背景”的密集映射。
  2. 实例头:同时,这个分支使用类似于目标 detect的技术来定位“事物”并为它们生成掩码。

然后,融合模块或后处理步骤会解决这些输出之间的冲突——例如,决定一个像素是属于“人物”实例还是其背后的“背景”墙——从而生成最终的、不重叠的 全景分割图

实际应用

全景分割的整体性使其在安全和上下文至关重要的行业中不可或缺。

  • 自动驾驶汽车: 自动驾驶汽车依赖全景感知来安全导航。语义部分识别可驾驶表面(道路)和边界(人行道),而实例部分则track行人和其他车辆等动态障碍物。这种统一视图有助于车辆的规划算法在复杂的交通管理场景中做出更安全的决策。
  • 医学图像分析: 在数字病理学中,分析组织样本通常需要对一般组织结构(背景物)进行分割,同时计数和测量特定的细胞类型或肿瘤(独立物体)。这种详细的分解有助于医生进行准确的疾病量化和诊断。
  • 机器人技术: 在非结构化环境(如家庭或仓库)中运行的服务机器人,需要区分它们可以穿越的地面(背景)和需要操作或避开的物体(实例)。

使用 Ultralytics 实现分割

尽管完整的全景训练可能很复杂,但开发人员可以使用 Ultralytics YOLO26 实现高精度的 实例分割——这是全景难题的关键组成部分。这个最先进的模型提供实时性能,并针对边缘部署进行了优化。

以下 python 示例演示了如何加载预训练的分割模型并运行推理以隔离不同的物体:

from ultralytics import YOLO

# Load the YOLO26 segmentation model
model = YOLO("yolo26n-seg.pt")

# Run inference on an image to segment individual instances
# The model identifies 'things' and generates pixel-perfect masks
results = model("https://ultralytics.com/images/bus.jpg")

# Display the resulting image with overlaid segmentation masks
results[0].show()

对于希望管理其 训练数据 并自动化标注流程的团队,Ultralytics Platform 提供了一套用于数据集管理和模型训练的工具。高质量的 数据标注 对于分割任务至关重要,因为模型需要精确的像素级标签才能有效学习。

区分相关术语

了解不同 segment 类型之间的细微差别对于选择适合您项目的模型至关重要:

  • 语义分割: 仅专注于将像素 classify 到类别中。它回答“这个像素属于哪个类别?”(例如,树、天空),但无法区分同一类别的单个对象。如果两辆车重叠,它们会显示为一个大的“汽车”团块。
  • Instance Segmentation: 仅专注于detect和遮罩可计数对象。它回答“这是哪个对象?”,但通常完全忽略背景上下文。
  • 全景分割: 结合了两者。它回答了“这个像素是什么?”和“它属于哪个物体实例?”这两个问题,覆盖了整个图像,确保没有像素未被分类。

为了进一步探索这些任务中使用的数据集格式,您可以查阅 COCO dataset documentation,它是衡量分割性能的标准基准。

让我们一起共建AI的未来!

开启您的机器学习未来之旅