Pipeline Parallelism

Узнай, как конвейерный параллелизм распределяет модели глубокого обучения между GPU. Научись предотвращать ошибки нехватки памяти и оптимизировать распределенное обучение.

Конвейерный параллелизм — это передовой метод распределенного обучения, предназначенный для разделения большой нейронной сети (НС) между несколькими вычислительными устройствами, такими как GPU, путем разделения модели по глубине. Когда веса модели и состояния оптимизатора современной архитектуры превышают лимиты памяти одного ускорителя, инженеры разбивают последовательные слои сети на "этапы". Например, первые 10 слоев могут находиться на GPU 0, а следующие 10 слоев — на GPU 1. Во время прямого прохода данные передаются от одного устройства к другому. Соединяя эти устройства, исследователи могут обучать массивные алгоритмы глубокого обучения (DL), не сталкиваясь с аппаратными ошибками нехватки памяти.

Link to this sectionКак работает конвейерный параллелизм#

Наивная реализация разделения слоев между устройствами приводит к серьезным неэффективностям, известным как "конвейерные пузыри" (pipeline bubbles). Поскольку слои обрабатываются последовательно, GPU 1 простаивает, пока GPU 0 обрабатывает начальные слои. Чтобы максимизировать использование оборудования, современные планировщики конвейера делят глобальный размер пакета на более мелкие "микро-пакеты".

Вместо того чтобы ждать завершения всего пакета, GPU 0 немедленно начинает обработку второго микро-пакета, как только передает первый микро-пакет на GPU 1. Такие инструменты, как Microsoft DeepSpeed и PyTorch Distributed Pipelining API, обычно используют стратегию планирования 1F1B (один прямой проход, один обратный проход). Этот метод чередует вычисления прямого и обратного проходов для разных микро-пакетов одновременно, значительно минимизируя конвейерные пузыри и потребление памяти. Недавние достижения 2024 и 2025 годов даже представили Zero Bubble Pipeline Parallelism — стратегию прогнозирования весов с учетом оптимизатора, которая почти полностью устраняет время простоя в вычислительных кластерах.

Link to this sectionОтличие родственных методов параллелизма#

Конвейерный параллелизм функционирует в рамках более широкой экосистемы стратегий распределенных вычислений. Понимание различий между ними имеет решающее значение для эффективного масштабирования моделей ИИ:

Параллелизм моделей: Это общий термин для разделения модели между устройствами. Конвейерный параллелизм является узкоспециализированной формой параллелизма моделей, которая разбивает архитектуру последовательно по глубине.
Тензорный параллелизм: В отличие от разделения по глубине в конвейерном параллелизме, тензорный параллелизм разбивает отдельные матричные операции горизонтально между GPU. Эти две техники часто комбинируются для максимизации пропускной способности.
Параллелизм данных: Параллелизм данных реплицирует всю модель на каждом GPU и распределяет обучающие данные между ними. Для компактных, высокооптимизированных архитектур обнаружения объектов и сегментации изображений, таких как модель Ultralytics YOLO26, которая изначально помещается в видеопамять одного устройства, параллелизм данных через PyTorch DistributedDataParallel (DDP) является предпочтительным методом для ускорения обучения.

Link to this sectionРеальные применения в ИИ и ML#

Масштабирование сложной инфраструктуры необходимо для построения современных передовых систем ИИ:

Обучение базовых моделей: Разработка гигантских больших языковых моделей (LLM) и базовых моделей, таких как Llama 3 от Meta, требует сочетания тензорного параллелизма, параллелизма данных и конвейерного параллелизма. Такие фреймворки, как NVIDIA Megatron-LM, используют эти стратегии для обучения массивных архитектур Mixture-of-Experts (MoE) на тысячах GPU на облачных платформах, таких как AWS SageMaker.
Медицинская диагностика высокого разрешения: В ИИ в здравоохранении и научном моделировании 3D-объемные сканы часто создают активации, слишком большие для одного ускорителя. Конвейеризация слоев сети между узлами позволяет исследовательским больницам обучать глубокие сети на огромных наборах данных МРТ без снижения разрешения изображений.

Link to this sectionПример кода: Концепция разбиения слоев#

Исторически распределение слоев между устройствами требовало сложного пользовательского кода. Сегодня базовая логика отображает конкретные слои на разные идентификаторы устройств. Ниже представлено концептуальное отображение того, как этапы сети распределяются по устройствам в PyTorch, что создает основу для операций конвейерного параллелизма:

import torch.nn as nn


class SimplePipelineModel(nn.Module):
    def __init__(self):
        super().__init__()
        # Stage 1 is assigned to the first GPU
        self.stage1 = nn.Sequential(nn.Linear(1024, 1024), nn.ReLU()).to("cuda:0")
        # Stage 2 is assigned to the second GPU
        self.stage2 = nn.Sequential(nn.Linear(1024, 1024), nn.ReLU()).to("cuda:1")

    def forward(self, x):
        # The forward pass seamlessly crosses device boundaries
        x_out = self.stage1(x.to("cuda:0"))
        return self.stage2(x_out.to("cuda:1"))

Хотя создание базовых моделей требует сложной оркестрации, развертывание быстрых и масштабируемых проектов компьютерного зрения (CV) обычно проще. Для оптимизированного развертывания моделей и автоматизированного использования нескольких GPU разработчики доверяют платформе Ultralytics для автоматического масштабирования рабочих нагрузок. Используя надежные советы по обучению моделей, платформа абстрагирует управление инфраструктурой, позволяя инженерам полностью сосредоточиться на создании точных решений ИИ, способных выполнять вывод в реальном времени.