敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

全景分割

了解全景分割如何统一语义分割和实例分割,从而在 AI 应用中实现精确的像素级场景理解。

全景分割是一项高级的计算机视觉(CV)任务,它提供对整个场景的全面、像素级的理解。它统一了两个独立的任务:语义分割实例分割。其目标是为图像中的每个像素分配一个类别标签(如汽车、人或天空),并且对于不同的对象,分配一个唯一的实例ID。与单独使用任何一种分割方法相比,这可以创建更全面、更详细的输出,使机器能够以更接近人类视觉的细节水平感知视觉环境。该术语由 FAIR 的研究人员在 2018 年具有开创性的论文“全景分割”中提出。

全景分割 vs. 其他分割类型

为了充分理解全景分割,将其与其组成部分进行比较会很有帮助:

  • 语义分割: 这种技术将图像中的每个像素分类为特定类别。例如,它会将属于汽车的所有像素标记为“汽车”,并将道路的所有像素标记为“道路”。但是,它不区分同一对象类的不同实例。彼此相邻的两辆单独的汽车都将是同一“汽车”像素图的一部分。
  • 实例分割 此方法检测和分割单个对象,这些对象通常被称为“事物”(例如,汽车、行人、动物)。它为每个检测到的对象实例分配一个唯一的掩码,例如 car_1, car_2,以及 pedestrian_1。但是,实例分割通常会忽略无定形的背景区域,或“stuff”(例如,天空、道路、草地、墙壁),这些区域缺乏明显的形状或计数。
  • 全景分割: 这结合了语义分割和实例分割的优势。它分割图像中的每个像素,为“事物”和“东西”提供类别标签。至关重要的是,它还为每个“事物”分配一个唯一的实例 ID,从而提供完整而统一的场景解释。例如,全景模型不仅会标记天空和道路,还会识别和描绘 car_1, car_2,以及 pedestrian_1 作为独立的实体。这种全面的方法对于高级 人工智能应用.

全景分割的应用

全景分割提供的详细场景理解在各个领域都非常宝贵:

  • 自动驾驶汽车: 自动驾驶汽车需要完全了解周围环境才能安全导航。全景分割使它们能够识别道路和人行道等无定形表面(“stuff”),同时区分单个汽车、行人和骑自行车者(“things”),即使它们重叠。正如Waymo等公司的系统所展示的那样,这种详细的感知对于安全路径规划和决策至关重要。了解Ultralytics如何为汽车解决方案中的人工智能做出贡献。
  • 医学影像分析: 在分析诸如 MRICT 扫描等医学扫描图像时,全景分割可以区分各种组织类型(“stuff”),同时还可以识别结构的特定实例,如肿瘤或单个细胞(“things”)。这支持更准确的诊断,有助于 手术计划,并有助于监测疾病进展。您可以阅读有关相关任务的信息,如使用 YOLO11 进行肿瘤检测
  • 机器人技术: 为了使机器人能够有效地与其环境互动,它们必须了解总体布局(墙壁、地板)和可以操作的特定物体(工具、零件)。全景分割提供了这种统一的视图,从而改善了在仓库和工厂等复杂环境中的导航和人机交互。了解更多关于人工智能在机器人技术中的作用
  • 增强现实 (AR): AR 应用程序使用全景分割将虚拟对象与现实世界无缝融合。 通过了解背景表面和前景对象的位置,AR 系统可以逼真地放置虚拟内容,正确处理遮挡。 这导致了AR 技术的重大进步。
  • 卫星图像分析: 这项技术用于详细的土地覆盖mapping,区分大面积类型,如森林或水体(“stuff”),以及建筑物或车辆等单个结构(“things”)。美国地质调查局 (USGS)等政府机构使用这些数据进行环境监测和城市规划。

模型与实现

全景分割模型通常使用深度学习框架(如PyTorch)构建,并在大规模数据集(如COCO-PanopticCityscapes)上进行训练。虽然像YOLO11这样的 Ultralytics 模型在目标检测实例分割等核心任务中提供了最先进的性能,而这些是重要的构建块,但全景分割代表了更高层次的集成场景理解。随着Google AIMeta AI等机构的研究不断深入,这些综合模型的能力也在不断提高,为更复杂和更智能的 AI 系统铺平了道路。您可以使用像Ultralytics HUB这样的平台来管理和训练相关任务的模型。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板