探索计算机视觉中的图像 segmentation。了解 Ultralytics YOLO26 如何为实例、语义和全景 segmentation 提供精确的像素级掩码。
图像 segmentation 是计算机视觉 (CV) 中的一种复杂技术,它将数字图像分割成多个像素子组,通常称为图像片段或区域。与为整个图像分配单个标签的标准图像分类不同,segmentation 通过为每个单独的像素分配特定的类别标签,在更精细的粒度级别上分析视觉数据。这个过程创建了一个精确的像素级地图,使人工智能 (AI) 模型不仅能理解存在哪些物体,还能确切了解它们的位置及其具体边界。
为了实现这种高保真理解,分割模型通常利用深度学习 (DL)架构,特别是卷积神经网络 (CNN)。这些网络充当强大的特征提取器,识别边缘、纹理和复杂形状等模式。传统的分割架构,如经典的U-Net,通常采用编码器-解码器结构。编码器压缩输入图像以捕获语义上下文,而解码器重建空间细节以输出最终的分割掩码。
现代技术进步催生了实时架构,例如2026年1月发布的YOLO26。这些模型将分割能力直接集成到端到端管道中,从而实现在从云端GPU到边缘设备等各种硬件上的高速处理。
根据项目的具体目标,开发者通常在三种主要的 segmentation 技术之间进行选择:
将 segmentation 与目标 detect 区分开来至关重要。尽管 detect 算法使用矩形bounding box定位物体,但它们不可避免地会将背景像素包含在该框内。segmentation 通过描绘物体的精确轮廓或多边形,提供更紧密、更准确的表示。这种差异对于机器人抓取等应用至关重要,因为机械臂必须了解物体的精确几何形状才能在不发生碰撞的情况下对其进行操作。
图像分割提供的精度推动了各行各业的创新:
开发者可以使用以下方法高效实现实例 segmentation ultralytics python 包。以下示例使用了最先进的 YOLO26模型,它在速度和准确性方面都进行了优化。
from ultralytics import YOLO
# Load a pre-trained YOLO26 segmentation model
# 'n' denotes the nano version, optimized for speed
model = YOLO("yolo26n-seg.pt")
# Run inference on an image to generate masks
# The model identifies objects and outlines their shape
results = model("https://ultralytics.com/images/bus.jpg")
# Display the image with segmentation overlays
results[0].show()
为了在自定义任务上实现高性能,团队通常需要整理高质量的训练数据。Ultralytics Platform 通过提供使用多边形掩码标注图像、管理数据集和在云端训练模型的工具来简化此过程,从而简化整个机器学习操作 (MLOps)生命周期。OpenCV 等库也常与这些模型一起用于图像预处理和结果掩码的后处理。

开启您的机器学习未来之旅