发现语义classify 的强大功能--分类图像中的每个像素,精确理解场景。立即探索应用和工具!
语义分割是计算机视觉 (CV) 中的一项基础技术。 计算机视觉 (CV)的基础技术,它涉及为图像中的每个像素分配一个特定的 为图像中的每个像素分配特定的类别标签。与可能对整个图像进行分类或在物体周围放置边界框的简单任务不同 或在物体周围放置一个边界框的简单任务不同,语义分割提供了一个像素完美的场景地图。这种 这种细粒度级别的细节使机器能够了解物体的精确边界和形状,并将不同的区域分类,如 "道路"、"溪流"、"河流 "等。 如 "道路"、"人物"、"天空 "或 "肿瘤"。通过将图像 这种方法将图像视为分类像素的集合,而不仅仅是物体的总和,从而提供了对视觉背景的全面理解,而这一点是至关重要的。 这对于高级人工智能(AI)系统来说至关重要。 人工智能(AI)系统 与复杂环境交互所必需的。
语义分割过程在很大程度上依赖于 深度学习 (DL)模型,特别是 架构 卷积神经网络(CNN)。这些模型是在大型 注释数据集上进行训练。 对每个像素进行标注。在训练过程中,网络学会将纹理和边缘等低级特征与高级语义概念联系起来。 与高级语义概念相关联。
常见的架构模式包括编码器-解码器结构:
全卷积网络(FCN)等开创性架构奠定了基础。 等开创性架构奠定了基础,它们用卷积层取代了全连接层,从而输出空间地图。更专业的 设计(如U-Net)利用跳转连接来保留细粒度细节,使其成为高度专业化的网络。 更专业的设计(如 U-Net)利用跳转连接来保留细粒度细节,使其在需要高精度的任务中非常有效。
要为项目选择合适的工具,必须将语义分割与其他计算机视觉任务区分开来。 计算机视觉任务:
在像素级解析场景的能力推动了多个行业的创新:
现代框架,如 PyTorch和 TensorFlow提供了构建分割模型的工具。不过 高级库大大简化了这一过程。高级库 Ultralytics YOLO11模型支持 细分任务,在速度和准确性之间取得平衡,适合于 速度和准确性的平衡,适合 实时推理。
下面的示例演示了如何加载预训练的YOLO11 分割模型并对图像执行推理。
图像上执行推理。 ultralytics python 软件包。
from ultralytics import YOLO
# Load a pre-trained YOLO11 segmentation model
model = YOLO("yolo11n-seg.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Visualize the segmentation mask results
results[0].show()
对于希望创建定制解决方案的开发人员来说,标注工具如 LabelMe或CVAT 是准备训练数据的关键。训练完成后 就可以使用 OpenCV或优化的 格式(如ONNX )部署到边缘设备上,以便在生产环境中实现高效性能。