욜로 비전 선전
선전
지금 참여하기
용어집

TPU (Tensor Processing Unit)

TPU(Tensor Processing Unit)가 탁월한 효율성으로 학습, 추론 및 객체 감지와 같은 머신러닝 작업을 가속화하는 방법을 알아보세요.

TPU(Tensor Processing Unit)는 Google에서 특별히 머신 러닝(ML) 및 딥 러닝 워크로드를 위해 개발한 맞춤형 하드웨어 가속기의 한 유형입니다. 이러한 응용 프로그램별 통합 회로(ASIC)는 신경망의 훈련 및 실행에 기본이 되는 텐서 및 행렬 계산 속도를 획기적으로 높이도록 설계되었습니다. TPU는 대규모 머신 러닝 작업에 대한 높은 성능과 전력 효율성을 제공하도록 설계되어 현대 AI 인프라의 중요한 구성 요소입니다.

TPU 작동 원리

TPU는 AI 모델에 필요한 막대한 양의 계산을 처리하도록 설계되었습니다. TPU 아키텍처는 신경망의 핵심 수학 연산인 행렬 곱셈에 고도로 최적화되어 있습니다. 범용 프로세서와 달리 TPU는 딥러닝 모델의 특성에 적합한 고처리량, 저정밀도 연산에 집중합니다. TPU는 대규모 데이터 배치를 병렬로 처리하여 모델 학습과 실시간 추론에 필요한 시간을 크게 줄일 수 있습니다. TPU는 일반적으로 Google Cloud Platform을 통해 액세스하며 TensorFlow 및 PyTorch와 같은 ML 프레임워크와 긴밀하게 통합되어 있습니다.

실제 애플리케이션

TPU는 오늘날 가장 까다로운 AI 애플리케이션을 지원하는 데 중요한 역할을 합니다.

  1. 대규모 언어 모델(LLM) 학습: Google은 TPU 포드라고 알려진 대규모 TPU 클러스터를 사용하여 검색 엔진 및 Gemini와 같은 대화형 AI의 기반 모델을 포함하여 가장 발전된 기반 모델(foundation models)을 학습합니다. TPU 포드의 막대한 병렬 컴퓨팅 기능을 통해 다른 하드웨어에서 소요되는 시간의 일부만으로 수조 개의 파라미터를 가진 모델을 학습할 수 있습니다.
  2. Google 서비스 지원: TPU는 수많은 Google 제품에서 추론에 사용됩니다. 예를 들어 Google 포토에서는 사람, 객체 및 장면을 검색하기 위해 빠른 이미지 인식을 지원합니다. 마찬가지로 Google 번역에서 실시간 번역을 지원하고 Google 어시스턴트에서 음성 인식에 사용됩니다. DeepMind는 세계 최고의 바둑 기사를 이긴 AI인 AlphaGo를 훈련하기 위해 TPU를 사용한 것으로도 유명합니다.

TPU vs GPU vs CPU

TPU, GPU, CPU는 모두 프로세서이지만, 매우 다른 목적을 위해 설계되었습니다.

  • CPU (중앙 처리 장치): 범용 작업을 위해 설계된 컴퓨터의 "두뇌"입니다. CPU는 다양한 명령을 순차적으로 처리하는 데 탁월하므로 운영 체제 및 표준 소프트웨어를 실행하는 데 필수적이지만 AI의 대규모 병렬 계산에는 덜 효율적입니다.
  • GPU (Graphics Processing Unit): 원래 그래픽 렌더링을 위해 만들어진 GPU 아키텍처는 수천 개의 코어를 포함하고 있어 병렬 처리에서 매우 효과적입니다. NVIDIAAMD와 같은 회사의 GPU는 뛰어난 성능과 유연성의 균형을 제공하므로 Ultralytics YOLO11과 같은 모델을 훈련하는 데 널리 사용됩니다.
  • TPU: Google에서 신경망 워크로드를 위해 특별히 만든 고도로 전문화된 가속기입니다. TPU는 일반 컴퓨팅을 위한 GPU보다 유연성은 떨어지지만, 대규모 텐서 연산에 대해 더 우수한 와트당 성능을 제공합니다. 따라서 특히 Google의 클라우드 생태계를 사용할 때 대규모 모델 배포 및 학습에 탁월한 선택입니다.

Ultralytics 생태계에서 TPU의 역할

Ultralytics 사용자는 TPU를 활용하여 컴퓨터 비전 프로젝트를 가속화할 수 있습니다. 모델은 Google Edge TPU용 TensorFlow Lite와 같은 TPU 호환 형식으로 내보낼 수 있습니다. 이를 통해 Coral Dev Board와 같은 에지 장치에서 매우 효율적인 배포가 가능합니다. 대규모 학습 작업의 경우 Ultralytics HUB와 같은 플랫폼은 다양한 클라우드 컴퓨팅 리소스에서 학습을 오케스트레이션하여 사용자가 사용자 지정 데이터 세트에 대해 TPU의 성능을 활용할 수 있도록 지원합니다. 이러한 통합은 학습에서 배포 및 모니터링에 이르기까지 전체 MLOps 라이프사이클을 용이하게 합니다.

Ultralytics 커뮤니티에 참여하세요

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기
클립보드에 링크가 복사되었습니다.