YOLO26 소개: 차세대 비전 AI입니다.
Ultralytics
Ultralytics 용어집으로 돌아가기

Tensor Parallelism

텐서 병렬 처리(tensor parallelism)가 대규모 모델 학습을 위해 GPU 전반에 걸쳐 가중치 행렬을 어떻게 샤딩(sharding)하는지 알아보십시오. Ultralytics와 함께 데이터 병렬 처리와의 차이점을 살펴보십시오.

Tensor Parallelism is an advanced distributed training technique used in machine learning to divide large individual mathematical structures, or tensors, across multiple hardware accelerators such as GPUs or TPUs. When training massive deep learning models, the parameter count can easily exceed the memory capacity of a single device. Instead of placing an entire neural network layer on one GPU, tensor parallelism shards the weight matrices and splits the mathematical operations (like matrix multiplications) across multiple devices in a cluster. This allows the model to leverage the combined memory and compute power of the entire hardware setup, executing parallel computations in a Single-Program Multiple-Data (SPMD) paradigm while synchronizing the results via high-speed interconnects like NVIDIA NVLink.

Link to this section텐서 병렬 처리의 작동 원리#

신경망의 핵심은 행렬 곱셈입니다. 텐서 병렬 처리는 행렬을 행 단위 또는 열 단위로 분할하여 이러한 연산을 분산시킵니다. 예를 들어 완전 연결 레이어나 Transformer 어텐션 메커니즘에서 하나의 GPU는 행렬의 왼쪽 절반을 계산하고 다른 GPU는 오른쪽 절반을 계산할 수 있습니다. 병렬 연산이 완료되면 장치들은 종종 고속 All-Reduce 집합 연산을 사용하여 통신하며 부분 결과를 집계한 후 전체 텐서를 다음 레이어로 전달합니다. 2025년의 최근 학계 발전은 대규모 컴퓨팅 클러스터의 병목 현상을 유발하는 통신 오버헤드를 줄이기 위해 부분 동기화된 활성화 함수를 도입함으로써 이 과정을 더욱 최적화하고 있습니다.

Link to this section관련 병렬 처리 기법 구분#

텐서 병렬 처리가 분산 컴퓨팅의 광범위한 환경에서 어떻게 위치하는지 이해하려면 다른 일반적인 전략들과의 차이점을 구분해야 합니다.

  • 텐서 병렬 처리 vs 모델 병렬 처리: 텐서 병렬 처리는 모델 병렬 처리의 매우 구체적인 하위 범주입니다. 일반적인 모델 병렬 처리가 어떤 방식으로든 모델을 여러 장치로 나누는 것을 의미한다면 텐서 병렬 처리는 단일 레이어 내부의 개별 텐서를 샤딩하는 것만을 엄격하게 지칭합니다.
  • 텐서 병렬 처리 vs 파이프라인 병렬 처리: 파이프라인 병렬 처리는 깊이에 따라 네트워크를 분할하는 또 다른 형태의 모델 병렬 처리로 처음 몇 개의 레이어는 GPU 0에, 다음 레이어는 GPU 1에 배치하는 식입니다. 이는 파이프라인 버블로 알려진 순차적 의존성을 생성합니다. 반면 텐서 병렬 처리는 레이어 자체를 분할하여 순차적 지연 없이 동시에 실행하지만 훨씬 더 높은 네트워크 대역폭을 요구합니다.
  • 텐서 병렬 처리 vs 데이터 병렬 처리: 데이터 병렬 처리에서는 전체 모델이 모든 GPU에 완전히 복제되며 학습 데이터셋만 장치별로 분할됩니다. Ultralytics YOLO26과 같이 현대적인 GPU에 쉽게 들어가는 고도로 최적화된 아키텍처의 경우 PyTorch의 DistributedDataParallel을 통한 데이터 병렬 처리가 기본 메서드입니다. 텐서 병렬 처리는 일반적으로 단일 레이어의 파라미터가 하드웨어의 VRAM을 초과하여 OOM(Out-Of-Memory) 오류가 발생하는 경우에만 필요합니다.

Link to this section실제 활용 사례#

텐서 병렬 처리는 특히 거대한 연산 규모가 필요한 최첨단 아키텍처의 현대 AI 인프라에서 필수적입니다.

  • 거대 언어 모델(LLM) 학습: Meta의 Llama 3DeepSeek V3와 같은 거대한 파운데이션 모델은 텐서 병렬 처리를 구현하기 위해 NVIDIA Megatron-LM과 같은 프레임워크를 사용합니다. 이러한 모델의 은닉 차원과 어텐션 헤드가 매우 크기 때문에 효율적인 학습과 실시간 추론 시 낮은 지연 시간을 유지하려면 8-GPU 노드에 걸쳐 분할하는 것이 필수적입니다.
  • 거대 비전 모델(LVM) 및 3D 생성: 컴퓨터 비전이 거대한 멀티모달 추론 시스템으로 확장됨에 따라 연구자들은 거대한 비전 Transformer(ViT)를 학습시키기 위해 AWS SageMaker와 같은 서비스에서 파이프라인 병렬 처리와 결합된 텐서 병렬 처리를 사용합니다. 이 기법은 엄청난 연속 메모리 블록을 요구하는 고해상도 이미지 처리 및 비디오 생성을 가능하게 합니다.

Link to this sectionPyTorch에서 텐서 병렬 처리 구현하기#

과거에는 엔지니어들이 텐서를 샤딩하기 위해 복잡한 사용자 정의 분산 로직을 작성해야 했습니다. 최근 PyTorchDTensor(Distributed Tensor)를 도입하여 이 워크플로우를 기본적으로 간소화했습니다. 다음은 공식 PyTorch Distributed Tensor API를 사용하여 행 단위로 샤딩된 텐서를 생성하는 예시입니다.

import torch
from torch.distributed.device_mesh import init_device_mesh
from torch.distributed.tensor import Shard, distribute_tensor

# Initialize a 1D device mesh across 2 GPUs
mesh = init_device_mesh("cuda", (2,))

# Create a standard PyTorch tensor (e.g., representing a layer's weights)
local_tensor = torch.randn(1024, 1024)

# Distribute the tensor across the GPUs by sharding along the first dimension (row-wise)
# Each GPU now holds a (512, 1024) chunk of the original tensor
distributed_tensor = distribute_tensor(local_tensor, mesh, [Shard(0)])

print(f"Global shape: {distributed_tensor.shape}, Local shape: {distributed_tensor.to_local().shape}")

엣지에 최적화된 비전 작업 및 빠른 모델 배포를 위해 개발자들은 일반적으로 Ultralytics Platform을 사용하여 최적의 하드웨어 활용을 자동으로 처리합니다. 수십억 개의 파라미터를 가진 파운데이션 모델은 수동 텐서 병렬 처리 구성이 필요하지만 YOLO26과 같은 모델은 간단한 CLI 명령어를 사용하여 즉시 효율적으로 학습 규모를 확장할 수 있습니다. 이는 기본 데이터 병렬 처리 기법을 강력한 모델 학습 팁과 함께 원활하게 활용하여 최대 처리량을 보장합니다.

Explore solutions

Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델로 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적, 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.

더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델로 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 더 스마트한 도로를 위해 도로 안전, 운전자 보조 및 차량 자동화를 향상시킵니다.

더 알아보기
Real-time AI that works with your team

소매 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링 기능을 제공합니다.

더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매 분야를 재구성하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 제공합니다.

더 알아보기
Real-time AI that works with your team

로보틱스에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로보틱스 분야의 Vision AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.

더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. Vision AI는 품질 관리, 결함 탐지, PPE 준수 및 조립 라인 자동화를 주도합니다.

더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류를 간소화하십시오. 비전 AI는 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링을 가능하게 합니다.

더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델로 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적, 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.

더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델로 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 더 스마트한 도로를 위해 도로 안전, 운전자 보조 및 차량 자동화를 향상시킵니다.

더 알아보기
Real-time AI that works with your team

소매 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링 기능을 제공합니다.

더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매 분야를 재구성하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 제공합니다.

더 알아보기
Real-time AI that works with your team

로보틱스에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로보틱스 분야의 Vision AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.

더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. Vision AI는 품질 관리, 결함 탐지, PPE 준수 및 조립 라인 자동화를 주도합니다.

더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류를 간소화하십시오. 비전 AI는 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링을 가능하게 합니다.

더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델로 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적, 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.

더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델로 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 더 스마트한 도로를 위해 도로 안전, 운전자 보조 및 차량 자동화를 향상시킵니다.

더 알아보기
Real-time AI that works with your team

소매 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링 기능을 제공합니다.

더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매 분야를 재구성하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 제공합니다.

더 알아보기
Real-time AI that works with your team

로보틱스에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로보틱스 분야의 Vision AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.

더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. Vision AI는 품질 관리, 결함 탐지, PPE 준수 및 조립 라인 자동화를 주도합니다.

더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류를 간소화하십시오. 비전 AI는 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링을 가능하게 합니다.

더 알아보기

미래의 AI를 함께 구축합시다!

머신 러닝의 미래와 함께 여정을 시작하십시오.