Pipeline Parallelism

파이프라인 병렬 처리가 어떻게 딥러닝 모델을 GPU 간에 분할하는지 알아보십시오. 메모리 부족 오류를 방지하고 분산 학습을 최적화하는 방법을 학습하십시오.

Pipeline Parallelism is an advanced distributed training technique designed to partition a large neural network (NN) across multiple computing devices, such as GPUs, by separating the model depth-wise. When a modern architecture's model weights and optimizer states exceed the memory limits of a single accelerator, engineers split the network's sequential layers into "stages." For example, the first 10 layers might reside on GPU 0, while the subsequent 10 layers reside on GPU 1. During the forward pass, data flows from one device to the next. By chaining these devices together, researchers can train massive deep learning (DL) algorithms without encountering hardware-limiting out-of-memory errors.

Link to this section파이프라인 병렬 처리의 작동 방식#

장치 간에 레이어를 나누는 단순한 구현은 "파이프라인 버블(pipeline bubbles)"이라고 하는 심각한 비효율성을 초래합니다. 레이어는 순차적으로 처리되기 때문에 GPU 0이 초기 레이어를 처리하는 동안 GPU 1은 완전히 유휴 상태가 됩니다. 하드웨어 활용도를 극대화하기 위해 최신 파이프라인 스케줄러는 전체 배치 크기(batch size)를 더 작은 "마이크로 배치(micro-batches)"로 나눕니다.

전체 배치가 완료될 때까지 기다리는 대신, GPU 0은 첫 번째 마이크로 배치를 GPU 1로 넘기자마자 즉시 두 번째 마이크로 배치 처리를 시작합니다. Microsoft DeepSpeed 및 PyTorch Distributed Pipelining API와 같은 도구는 일반적으로 1F1B(One Forward, One Backward) 스케줄링 전략을 사용합니다. 이 방식은 서로 다른 마이크로 배치에 대한 순전파와 역전파를 동시에 수행하며, 이를 통해 파이프라인 버블과 메모리 소비를 크게 최소화합니다. 최근 2024년 및 2025년의 발전으로 컴퓨팅 클러스터 전반의 유휴 시간을 거의 제거하는 옵티마이저 인식 가중치 예측 전략인 Zero Bubble Pipeline Parallelism이 도입되었습니다.

Link to this section관련 병렬 처리 기법과의 차이점#

파이프라인 병렬 처리는 더 넓은 분산 컴퓨팅 전략 생태계 내에서 작동합니다. AI 모델을 효과적으로 확장하려면 그 차이점을 이해하는 것이 중요합니다.

모델 병렬 처리(Model Parallelism): 이는 모델을 여러 장치에 분할하는 것을 포괄하는 용어입니다. 파이프라인 병렬 처리는 아키텍처를 깊이에 따라 순차적으로 분할하는 매우 구체적인 형태의 모델 병렬 처리 방식입니다.
텐서 병렬 처리(Tensor Parallelism): 파이프라인 병렬 처리의 깊이별 분할과 달리, 텐서 병렬 처리는 개별 행렬 연산을 GPU 전체에 걸쳐 수평적으로 샤딩(sharding)합니다. 이 두 가지 기술은 처리량을 극대화하기 위해 자주 결합됩니다.
Data Parallelism: Data parallelism replicates the entire model on every GPU and distributes the training data among them. For compact, highly optimized object detection and image segmentation architectures like the Ultralytics YOLO26 model, which natively fits into a single device's VRAM, data parallelism via PyTorch's DistributedDataParallel (DDP) is the preferred method to accelerate training.

Link to this sectionAI 및 ML에서의 실제 애플리케이션#

현대의 최첨단 AI 시스템을 구축하려면 복잡한 인프라를 확장하는 것이 필수적입니다.

Training Foundation Models: Developing gigantic Large Language Models (LLMs) and foundation models like Meta's Llama 3 requires combining tensor, data, and pipeline parallelism. Frameworks like NVIDIA Megatron-LM leverage these strategies to train massive Mixture-of-Experts (MoE) architectures across thousands of GPUs on cloud platforms like AWS SageMaker.
고해상도 의료 진단: 의료 AI 및 과학 모델링에서 3D 볼륨 스캔은 종종 단일 가속기가 감당하기에 너무 큰 활성화 값을 생성합니다. 노드 전반에 걸쳐 네트워크 레이어를 파이프라이닝하면 연구 병원이 이미지 해상도를 저하시키지 않고도 거대한 MRI 데이터셋에서 딥 네트워크를 학습시킬 수 있습니다.

Link to this section코드 예시: 레이어 분할 개념#

과거에는 장치 간에 레이어를 분산시키려면 복잡하고 사용자 지정된 코드가 필요했습니다. 오늘날 기본적인 로직은 특정 레이어를 서로 다른 장치 식별자에 매핑합니다. 아래는 파이프라인 병렬 작업을 위한 기반을 마련하는 PyTorch에서 네트워크 스테이지가 장치 전반에 걸쳐 분할되는 방식에 대한 개념적 표현입니다.

import torch.nn as nn


class SimplePipelineModel(nn.Module):
    def __init__(self):
        super().__init__()
        # Stage 1 is assigned to the first GPU
        self.stage1 = nn.Sequential(nn.Linear(1024, 1024), nn.ReLU()).to("cuda:0")
        # Stage 2 is assigned to the second GPU
        self.stage2 = nn.Sequential(nn.Linear(1024, 1024), nn.ReLU()).to("cuda:1")

    def forward(self, x):
        # The forward pass seamlessly crosses device boundaries
        x_out = self.stage1(x.to("cuda:0"))
        return self.stage2(x_out.to("cuda:1"))

기반 모델을 만드는 것은 복잡한 오케스트레이션이 필요하지만, 신속하고 확장 가능한 컴퓨터 비전(CV) 프로젝트를 배포하는 것은 일반적으로 더 간단합니다. 능률적인 모델 배포와 자동화된 멀티 GPU 활용을 위해 개발자들은 Ultralytics Platform이 워크로드를 자동으로 확장해 줄 것이라 신뢰합니다. 강력한 모델 학습 팁을 활용하는 이 플랫폼은 인프라 관리를 추상화하여 엔지니어가 실시간 추론(real-time inference)이 가능한 정확한 AI 솔루션을 구축하는 데 전적으로 집중할 수 있게 합니다.

Pipeline Parallelism

Link to this section파이프라인 병렬 처리의 작동 방식#

Link to this section관련 병렬 처리 기법과의 차이점#

Link to this sectionAI 및 ML에서의 실제 애플리케이션#

Link to this section코드 예시: 레이어 분할 개념#

Explore solutions

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

미래의 AI를 함께 구축합시다!