Image Segmentation

探索计算机视觉中的图像分割。了解 Ultralytics YOLO26 如何提供用于实例、语义和全景分割的精确像素级掩码。

图像分割是一种在计算机视觉 (CV) 中非常成熟的技术，它涉及将数字图像划分为多个像素子组，通常称为图像片段或区域。与将整个图像分配单个标签的标准图像分类不同，分割通过为每个独立像素分配特定的类别标签，在更细粒度的层面上分析视觉数据。此过程可创建精确的像素级映射，使人工智能 (AI) 模型不仅能理解存在哪些对象，还能明确它们的位置以及具体的边界。

Link to this section像素级分析的机制#

为了实现这种高保真度的理解，分割模型通常利用深度学习 (DL) 架构，尤其是卷积神经网络 (CNNs)。这些网络充当强大的特征提取器，识别边缘、纹理和复杂形状等模式。传统的分割架构，如经典的 U-Net，通常采用编码器-解码器结构。编码器压缩输入图像以捕获语义上下文，而解码器则重建空间细节以输出最终的分割掩码。

现代进展催生了实时架构，例如 2026 年 1 月发布的 YOLO26。这些模型将分割功能直接集成到端到端流水线中，从而能够从云端 GPUs 到边缘设备等各种硬件上实现高速处理。

Link to this section分割的主要类型#

根据项目的具体目标，开发人员通常在三种主要的分割技术之间进行选择：

语义分割： 这种方法根据类别对像素进行分类，但不区分同一类的不同对象。例如，在卫星图像分析中，所有代表“森林”的像素都会被标记为绿色，将整个森林视为一个单一实体。
实例分割： 这种技术识别并分离出不同的感兴趣个体对象。在繁忙的街道场景中，实例分割会为“汽车 A”、“汽车 B”和“行人 A”生成唯一的掩码，使系统能够计数和跟踪特定的实体。这是 Ultralytics YOLO26 模型系列的核心功能。
全景分割： 一种结合了语义分割的覆盖范围和实例分割的精确度的混合方法。它为每个像素分配标签，在区分无定形背景元素（如天空和道路）的同时，还能唯一识别可计数的前景对象。

Link to this section与目标检测的区别#

区分分割与目标检测至关重要。虽然检测算法使用矩形边界框 (BBox) 对项目进行定位，但它们不可避免地会将框内的背景像素包含在内。分割通过追踪对象的精确轮廓或多边形，提供了更紧凑、更准确的表示。这种差异对于诸如机器人抓取等应用至关重要，在这些应用中，机械臂必须了解物品的精确几何形状，才能在不发生碰撞的情况下对其进行操作。

Link to this section实际应用#

图像分割提供的精确度推动了各行业的创新：

医学诊断： 在医学图像分析领域，分割对于勾勒解剖结构至关重要。算法分析 MRI 扫描以勾勒肿瘤或器官边界，使外科医生能够计算精确的体积并以挽救生命的准确性规划手术。
自动驾驶： 自动驾驶汽车依靠分割来安全导航。通过处理视频流，车辆的计算机可以区分可行驶车道与人行道和障碍物。像 SAE International 这样的标准组织定义的自动驾驶等级都需要这种高保真的环境感知。
精准农业： 在 AI 农业中，分割有助于机器人系统识别作物中的杂草。通过为特定的植物叶片生成掩码，自动化喷雾器可以仅针对入侵物种进行喷洒，从而显著减少除草剂的使用。

Link to this section使用 YOLO26 实现分割#

开发人员可以使用 ultralytics Python 包高效地实现实例分割。以下示例使用了最先进的 YOLO26 模型，该模型在速度和准确性方面都进行了优化。

from ultralytics import YOLO

# Load a pre-trained YOLO26 segmentation model
# 'n' denotes the nano version, optimized for speed
model = YOLO("yolo26n-seg.pt")

# Run inference on an image to generate masks
# The model identifies objects and outlines their shape
results = model("https://ultralytics.com/images/bus.jpg")

# Display the image with segmentation overlays
results[0].show()

为了在定制任务上实现高性能，团队通常需要策划高质量的训练数据。Ultralytics Platform 通过提供使用多边形掩码标注图像、管理数据集以及在云端训练模型的工具来简化这一过程，从而精简了整个机器学习运维 (MLOps) 生命周期。像 OpenCV 这样的库也经常与这些模型一起使用，用于预处理图像和后处理生成的掩码。