용어집

TPU Tensor 처리 장치)

Tensor 처리 장치(TPU)가 어떻게 훈련, 추론, 객체 감지와 같은 머신 러닝 작업을 탁월한 효율성으로 가속화하는지 알아보세요.

Tensor 프로세싱 유닛TPU은 맞춤형으로 개발된 애플리케이션 전용 집적 회로(ASIC) 머신 러닝(ML) 워크로드를 가속화하기 위해 머신 러닝(ML) 워크로드를 가속화하기 위해 특별히 설계되었습니다. 범용 프로세서와 달리 범용 프로세서와 달리, TPU는 처음부터 신경망의 방대한 연산 수요를 처리하도록 설계되었습니다. 신경망, 특히 복잡한 행렬 연산을 처리할 수 있도록 설계되었습니다. 이러한 특정 작업에 맞게 하드웨어를 최적화함으로써 TPU는 다음과 같은 이점을 제공합니다. 처리량과 에너지 효율성이 크게 향상되어 최신 인공 지능(AI) 인프라의 초석이 됩니다.

아키텍처 및 기능

TPU 핵심 강점은 딥러닝(DL)의 기본 수학적 연산인 행렬 곱셈을 놀라운 속도로 딥러닝(DL)의 기본 연산인 행렬 곱셈을 놀라운 속도에 있습니다. 표준 프로세서는 순차적으로 또는 제한된 병렬 처리로 명령을 실행하는 반면, TPU는 데이터가 수천 개의 멀티플라이어를 통해 수천 개의 멀티플라이어를 통해 동시에 데이터를 처리합니다. 이 설계는 메모리 액세스 지연 시간을 최소화하고 계산 밀도를 극대화합니다. 계산 밀도를 극대화합니다.

TPU는 Google 클라우드 에코시스템에 밀접하게 통합되어 다음과 같은 기능을 제공합니다. 대규모 학습을 위한 확장 가능한 리소스를 확장 가능한 리소스를 제공합니다. 또한 다음과 같은 프레임워크에 최적화되어 다음과 같은 프레임워크에 최적화되어 있습니다. TensorFlow 와 같은 프레임워크에 최적화되어 있으며 지원되는 PyTorch에서 점점 더 많이 지원되므로 개발자는 선호하는 코딩 환경을 변경하지 않고도 선호하는 코딩 환경을 변경하지 않고도 고성능 하드웨어를 활용할 수 있습니다.

처리 장치 비교: CPU, GPU, TPU

모델 훈련 및 배포 워크플로우를 최적화하려면 서로 다른 처리 단위 간의 차이점을 이해하는 것이 중요합니다. 모델 훈련 및 배포 워크플로우를 최적화하는 데 필수적입니다.

CPU (중앙 처리 장치): 컴퓨터의 "컴퓨터의 '두뇌'로, 다용도로 사용할 수 있도록 설계되었습니다. CPU는 순차 처리와 복잡한 로직에는 탁월하지만 하지만 일반적으로 AI에 필요한 대규모 병렬 연산에는 느립니다.
GPU (그래픽 처리 장치): 원래 이미지 렌더링을 위해 만들어진 GPU는 수천 개의 코어를 갖추고 있어 병렬 작업에 매우 효과적입니다. 작업에 매우 효과적입니다. 다음과 같은 다목적 모델 학습을 위한 업계 표준입니다. Ultralytics YOLO11 과 같은 유연성과 강력한 소프트웨어 지원으로 인해 NVIDIA CUDA.
TPU: 행렬 수학에서 유연성과 원시 성능을 교환하는 특수 가속기입니다. GPU는 다양한 작업에 적합하지만 GPU 다양한 작업에 적합하지만, TPU 특별히 초당 플롭(초당 부동 소수점 연산)을 극대화하기 위해 특별히 플롭(초당 부동 tensor 연산)을 극대화하도록 특별히 설계되어 대규모 AI에 더 나은 와트당 성능을 제공하는 경우가 많습니다.

실제 애플리케이션

TPU는 대규모 클라우드 기반 교육과 효율적인 엣지 배포 모두에서 중요한 역할을 합니다.

대규모 언어 모델(LLM): Google TPU 포드라고 하는 방대한 TPU 클러스터를 사용하여 엄청난 대규모 언어 모델(LLM)을 학습합니다. PaLM 및 Gemini. 수천 개의 칩을 상호 연결하는 기능 덕분에 이러한 시스템은 페타바이트 단위의 페타바이트의 훈련 데이터를 처리할 수 있습니다. 기존 클러스터보다 훨씬 짧은 시간 내에 처리할 수 있습니다.
엣지 AI 및 IoT: 더 작은 규모의 경우, Edge TPU 저전력 디바이스를 위해 설계된 하드웨어 가속기입니다. 저전력 디바이스를 위해 설계된 하드웨어 가속기입니다. 이를 통해 다음을 수행할 수 있습니다. 다음과 같은 하드웨어에서 실시간 추론을 코랄 개발 보드와 같은 하드웨어에서 실시간 추론을 가능하게 하여 지속적인 인터넷에 의존하지 않고도 엣지에서 빠른 물체 감지 및 이미지 빠른 물체 감지 및 이미지 분할을 가능하게 합니다.

엣지 TPU Ultralytics 모델 배포하기

다음과 같이 작업하는 개발자를 위한 컴퓨터 비전(CV) 개발자의 경우, 저전력 디바이스에 모델을 배포하려면 저전력 디바이스에 모델을 배포하려면 표준 웨이트를 에지 TPU와 호환되는 형식으로 변환해야 하는 경우가 많습니다. Ultralytics 라이브러리는 이 모델 배포 프로세스를 간소화합니다. 사용자가 모델을 TensorFlow Lite Edge TPU 형식으로 직접 내보낼 수 있습니다.

이 프로세스에는 일반적으로 다음이 포함됩니다. 모델 양자화, 특수한 하드웨어 제약 조건에 맞게 숫자의 정밀도를 (예: 32비트 부동 소수점에서 8비트 정수로)를 특수한 하드웨어 제약 조건에 맞도록 줄이면서 정확도를 유지합니다.

from ultralytics import YOLO

# Load the official YOLO11 nano model
model = YOLO("yolo11n.pt")

# Export the model to Edge TPU format (int8 quantization)
# This creates a 'yolo11n_edgetpu.tflite' file for use on Coral devices
model.export(format="edgetpu")

이러한 모델을 내보낸 후에는 다음과 같은 작업에 배포할 수 있습니다. 임베디드 시스템에서 객체 감지, 최소한의 전력 소비로 빠른 추론 속도 제공 최소한의 전력 소비로 빠른 추론 속도를 제공합니다. 이 워크플로에 대한 자세한 내용은 다음 가이드를 참조하세요. 에지 TPU 통합 가이드를 참조하세요.

TPU Tensor 처리 장치)

산업 전반의 워크플로우를 간소화하기 위한 Ultralytics YOLO 모델 교육

혁신을 강화하는 유연한 엔터프라이즈 라이선스 솔루션

Ultralytics YOLO 몇 초 만에 AI 모델 훈련하기

아키텍처 및 기능

처리 장치 비교: CPU, GPU, TPU

실제 애플리케이션

엣지 TPU Ultralytics 모델 배포하기

이 카테고리에서 더 읽어보기

인간이 개입하는 주석 작업이 핵심인 이유 이해하기

데이터셋 증류란 무엇인가? 간략한 개요

오클리 메타 AI 안경은 비전 AI로 안경의 개념을 재정의하고 있습니다

Ultralytics 커뮤니티 가입