Learn how distributed training scales AI by splitting workloads across GPUs. Explore data parallelism, use [YOLO26](https://docs.ultralytics.com/models/yolo26/) for faster results, and discover the [Ultralytics Platform](https://platform.ultralytics.com) for seamless model deployment.
分布式训练是机器学习中的一种方法,它将训练模型的负载分配到多个处理器或机器上。这种方法对于处理大规模数据集和复杂神经网络架构至关重要,否则在单台设备上训练将耗费不切实际的时间。通过利用多个图形处理单元(GPU)或张量处理单元(TPU)的组合计算能力,分布式训练显著加速了开发周期,使研究人员和工程师能够更快地迭代并提升其模型的准确性。 Tensor 单元(TPU)的综合计算能力,分布式训练显著加速了开发周期,使研究人员和工程师能够更快地迭代模型并实现更高精度。
分布式训练的核心思想是并行化。它不再将数据顺序处理在单个芯片上,而是将任务分割为更小的数据块,这些数据块可同时处理。实现这一目标主要有两种策略:
分布式训练通过使解决先前在计算上不可行的问题成为可能,从而改变了整个行业。
"(《世界人权宣言》) ultralytics 该库使分布式数据并行(DDP)训练的实现变得简单直接。
您可扩展训练前沿模型的规模
YOLO26 通过在训练参数中简单指定设备索引,即可在多块GPU上并行训练模型。
from ultralytics import YOLO
# Load a pre-trained YOLO26 model
model = YOLO("yolo26n.pt")
# Train the model using two GPUs (device 0 and 1)
# The library automatically handles the DDP communication backend
results = model.train(data="coco8.yaml", epochs=100, device=[0, 1])
区分分布式训练与机器学习生态系统中的类似术语有助于理解它们的具体作用:
管理分布式训练的基础设施可能相当复杂。现代平台通过提供托管环境简化了这一过程。例如Ultralytics 允许用户管理数据集并启动训练任务,这些任务可部署到云环境或本地集群。这种集成简化了从数据标注到最终模型部署的工作流程,确保扩展至多GPU的操作尽可能无缝衔接。 同理,云服务提供商Google Vertex AI和Amazon SageMaker,也为企业级分布式训练任务提供了强大的基础设施支持。