深圳Yolo 视觉
深圳
立即加入
词汇表

语义分割

探索用于像素级图像理解的语义 segmentation。立即学习如何使用 Ultralytics YOLO26 训练和部署精确的 segmentation 模型。

语义分割是一种计算机视觉任务,它通过为每个单独的像素分配特定的类别标签,将图像划分为不同的区域。与图像分类(为整个图像分配单个标签)或目标detect(在对象周围绘制边界框)等更简单的任务不同,语义分割提供了对场景的像素级理解。这种细粒度分析对于那些对象精确形状和边界与其身份同样重要的应用至关重要。它使机器能够更像人类一样“看”世界,区分构成道路、行人或医学扫描中肿瘤的精确像素。

语义分割如何工作

其核心在于,语义分割将图像视为需要分类的像素网格。深度学习模型,特别是卷积神经网络 (CNN),是此任务的标准架构。典型的架构,例如广泛使用的U-Net,采用编码器-解码器结构。编码器压缩输入图像以提取高级特征(如纹理和形状),而解码器将这些特征上采样回原始图像分辨率,以生成精确的segmentation mask

为此,模型在大型标注数据集上进行训练,其中人工标注员根据其类别仔细地为每个像素着色。Ultralytics Platform等工具通过提供自动标注功能来促进这一过程,从而加快高质量真值数据的创建。一旦训练完成,模型会输出一个mask,其中每个像素值对应一个类别ID,有效地“赋予”图像意义。

区分相关概念

语义分割常与其他像素级任务混淆。了解这些差异是为项目选择正确方法的关键:

  • Instance Segmentation: 语义分割将同一类别的所有对象视为一个单一实体(例如,所有“汽车”都涂成蓝色),而实例分割则区分单个对象(例如,“汽车A”是蓝色,“汽车B”是红色)。
  • 全景分割: 这结合了这两个概念。它为每个像素分配一个类别(语义),同时分离可计数对象的单个实例(实例),提供最全面的场景理解。

实际应用

以像素级精度解析视觉数据的能力推动了许多高风险行业的创新:

  • 汽车AI: 自动驾驶汽车严重依赖segmentation以安全导航。通过识别可行驶区域与人行道,并精确勾勒出行人、汽车和障碍物,自动驾驶系统能够实时做出关键决策。
  • 医疗AI: 在医学影像中,模型从CT扫描和MRI中segment器官、病变或肿瘤。这有助于放射科医生计算肿瘤体积以进行治疗计划,或以极高的精度引导机器人手术工具。
  • 农业中的 AI 农民 利用无人机航拍图像和分割技术监测作物健康。通过将像素分类为“健康作物”、“杂草”或“土壤”,自动化系统可以精准喷洒除草剂,从而减少化学品使用并优化产量。

使用 Ultralytics 实现分割

现代分割模型需要在准确性和速度之间取得平衡,尤其是在 实时推理 边缘设备上。 Ultralytics YOLO26 模型系列包括专门的分割模型(以 -seg 后缀表示),它们原生支持端到端,相比旧架构(如 YOLO11.

以下示例演示了如何使用 ultralytics python 包)提供了卓越的性能。这会生成描绘对象边界的二值mask。

from ultralytics import YOLO

# Load a pre-trained YOLO26 segmentation model
model = YOLO("yolo26n-seg.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Visualize the results
# This will display the image with the segmentation masks overlaid
results[0].show()

挑战和未来方向

尽管取得了显著进展,语义分割仍然是计算密集型的。为每个像素生成分类需要大量的GPU资源和内存。研究人员正在积极优化这些模型的效率,探索模型量化等技术,以便在手机和嵌入式设备上运行大型网络。

此外,对大规模标注数据集的需求是一个瓶颈。为解决此问题,业界正转向合成数据生成和自监督学习,允许模型从原始图像中学习,而无需数百万个手动像素标签。随着这些技术的成熟,我们可以预期分割技术将在智能相机、机器人和增强现实应用中变得更加普及。

让我们一起共建AI的未来!

开启您的机器学习未来之旅