遇见 YOLO26: 下一代视觉 AI。
Ultralytics
返回 Ultralytics 词汇表

Pipeline Parallelism

了解流水线并行(pipeline parallelism)如何跨 GPU 分割深度学习模型。学习如何预防内存不足错误并优化分布式训练。

流水线并行是一种高级分布式训练技术,旨在通过在深度方向上拆分模型,将大型神经网络 (NN) 分布到多个计算设备(如 GPUs)上。当现代架构的模型权重和优化器状态超过单个加速器的内存限制时,工程师会将网络的顺序层拆分为“阶段”。例如,前 10 层可能位于 GPU 0 上,而后续 10 层则位于 GPU 1 上。在前向传播过程中,数据从一个设备流向下一个设备。通过将这些设备链接在一起,研究人员可以训练超大规模的深度学习 (DL) 算法,而不会遇到硬件限制导致的内存溢出错误

Link to this section流水线并行是如何工作的#

一种简单的在设备间划分层的方法会导致严重的低效,即所谓的“流水线气泡”。由于层是按顺序处理的,当 GPU 0 处理初始层时,GPU 1 会完全处于空闲状态。为了最大限度地提高硬件利用率,现代流水线调度器将全局批处理大小划分为更小的“微批次”。

GPU 0 无需等待整个批次完成,一旦将第一个微批次传递给 GPU 1,它就会立即开始处理第二个微批次。像 Microsoft DeepSpeedPyTorch Distributed Pipelining API 这样的工具通常使用 1F1B(一次前向,一次反向)调度策略。该方法交替计算不同微批次的前向和反向传播,从而显著减少流水线气泡和内存消耗。2024 年和 2025 年的最新进展甚至引入了零气泡流水线并行,这是一种感知优化器的权重预测策略,几乎消除了计算集群中的空闲时间。

Link to this section区分相关并行技术#

流水线并行在更广泛的分布式计算策略生态系统中运行。了解它们之间的差异对于有效扩展 AI 模型至关重要:

  • 模型并行: 这是跨设备拆分模型的总称。流水线并行是模型并行的一种高度具体形式,按深度顺序对架构进行分区。
  • 张量并行 与流水线并行的深度方向拆分不同,张量并行在水平方向上将单个矩阵运算分片到各个 GPU 上。这两种技术经常结合使用以最大限度地提高吞吐量。
  • 数据并行 数据并行在每个 GPU 上复制整个模型,并在它们之间分发训练数据。对于紧凑、高度优化的目标检测图像分割架构(如原生适合单个设备 VRAM 的 Ultralytics YOLO26 模型),通过 PyTorch 的 DistributedDataParallel (DDP) 进行数据并行是加速训练的首选方法。

Link to this sectionAI 和 ML 中的实际应用#

扩展复杂的基础设施对于构建现代最先进的 AI 系统至关重要:

  • Training Foundation Models: Developing gigantic Large Language Models (LLMs) and foundation models like Meta's Llama 3 requires combining tensor, data, and pipeline parallelism. Frameworks like NVIDIA Megatron-LM leverage these strategies to train massive Mixture-of-Experts (MoE) architectures across thousands of GPUs on cloud platforms like AWS SageMaker.
  • 高分辨率医学诊断:医疗保健 AI 和科学建模中,3D 体积扫描通常会产生对于单个加速器来说过于庞大的激活值。跨节点对网络层进行流水线处理,使研究型医院能够在不影响图像分辨率的情况下,对海量的 MRI 数据集训练深度网络。

Link to this section代码示例:层分区的概念#

历史上,跨设备分发层需要复杂的定制代码。今天,基本逻辑是将特定的层映射到不同的设备标识符。下面是一个概念性表示,展示了如何在 PyTorch 中跨设备拆分网络阶段,从而为流水线并行操作奠定基础:

import torch.nn as nn


class SimplePipelineModel(nn.Module):
    def __init__(self):
        super().__init__()
        # Stage 1 is assigned to the first GPU
        self.stage1 = nn.Sequential(nn.Linear(1024, 1024), nn.ReLU()).to("cuda:0")
        # Stage 2 is assigned to the second GPU
        self.stage2 = nn.Sequential(nn.Linear(1024, 1024), nn.ReLU()).to("cuda:1")

    def forward(self, x):
        # The forward pass seamlessly crosses device boundaries
        x_out = self.stage1(x.to("cuda:0"))
        return self.stage2(x_out.to("cuda:1"))

虽然创建基础模型需要复杂的编排,但部署快速且可扩展的计算机视觉 (CV) 项目通常更简单。为了实现流线型的模型部署和自动化的多 GPU 利用,开发者信赖 Ultralytics Platform 来自动扩展工作负载。利用稳健的模型训练技巧,该平台抽象化了基础设施管理,让工程师能够全身心投入到构建能够进行实时推理的准确 AI 解决方案中。

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅