了解全景分割如何统一语义分割和实例分割,从而在 AI 应用中实现精确的像素级场景理解。
全景分割是一项统一的 计算机视觉 (CV)任务,它结合了 两种不同方法的能力--语义分割和实例分割 和实例分割这两种不同方法的能力,以提供 像素级的全面理解。其他方法可能只专注于识别物体或对区域进行分类。 而全景分割则为视觉场景中的每个像素分配一个唯一的标签。这一过程 区分 "物"--天空、道路或草地等无定形的背景区域--和 "事"--可计算的物体。 物"--可数物体,如人、汽车和动物。通过连接这些技术 人工智能(AI)系统 人工智能(AI)系统可以模仿人类视觉的细节感知,实现对环境的整体感知。
要充分了解全景分割的价值,最好将其与相关的 图像分割任务区分开来:
现代全景架构通常利用强大的 深度学习 (DL)框架。它们通常采用 共享特征提取器或骨干,如 卷积神经网络(CNN) 或视觉Transformer (ViT)。网络 然后分成两个专门的头:一个用于语义分析,另一个用于实例识别。先进的 算法将这些输出融合在一起,以解决冲突,如预测重叠等问题,从而生成一张具有凝聚力的全景图。 地图。
训练这些模型需要全面的 注释数据集。流行的基准包括 COCO 数据集,该数据集提供了各种日常物品、 和Cityscapes,后者专门提供对汽车研究至关重要的城市街道场景。 汽车研究必不可少的城市街景。
全景细分所提供的细粒度细节正在改变那些依赖于机器学习(ML)进行导航和交互的行业。 机器学习(ML)来导航和与物理世界交互的行业。 与物理世界进行交互的行业。
虽然完整的全景架构可能需要大量计算,但 "物 "的部分--识别不同的对象实例--可通过 物 "组件--识别不同的对象实例--可由 Ultralytics YOLO11.YOLO11 提供最先进的 实时推理,使其成为要求速度和准确性的 是要求速度和精度的应用的最佳选择。
以下是 Python 示例演示了如何使用
ultralytics 软件包来执行实例分割,这是全景理解的关键组成部分:
from ultralytics import YOLO
# Load a pretrained YOLO11 instance segmentation model
model = YOLO("yolo11n-seg.pt")
# Run inference to detect and segment individual objects ('things')
results = model("https://ultralytics.com/images/bus.jpg")
# Display the resulting image with segmentation masks
results[0].show()
对于构建复杂管道的开发人员来说,像 PyTorch等框架和 等框架和 OpenCV等框架和 OpenCV 等库能对这些分割图进行进一步处理。 您可以了解 培训自定义分割模型以满足特定项目需求 Ultralytics 文档。

