Tensor 처리 장치(TPU)가 어떻게 훈련, 추론, 객체 감지와 같은 머신 러닝 작업을 탁월한 효율성으로 가속화하는지 알아보세요.
Tensor 프로세싱 유닛TPU은 맞춤형으로 개발된 애플리케이션 전용 집적 회로(ASIC) 머신 러닝(ML) 워크로드를 가속화하기 위해 머신 러닝(ML) 워크로드를 가속화하기 위해 특별히 설계되었습니다. 범용 프로세서와 달리 범용 프로세서와 달리, TPU는 처음부터 신경망의 방대한 연산 수요를 처리하도록 설계되었습니다. 신경망, 특히 복잡한 행렬 연산을 처리할 수 있도록 설계되었습니다. 이러한 특정 작업에 맞게 하드웨어를 최적화함으로써 TPU는 다음과 같은 이점을 제공합니다. 처리량과 에너지 효율성이 크게 향상되어 최신 인공 지능(AI) 인프라의 초석이 됩니다.
TPU 핵심 강점은 딥러닝(DL)의 기본 수학적 연산인 행렬 곱셈을 놀라운 속도로 딥러닝(DL)의 기본 연산인 행렬 곱셈을 놀라운 속도에 있습니다. 표준 프로세서는 순차적으로 또는 제한된 병렬 처리로 명령을 실행하는 반면, TPU는 데이터가 수천 개의 멀티플라이어를 통해 수천 개의 멀티플라이어를 통해 동시에 데이터를 처리합니다. 이 설계는 메모리 액세스 지연 시간을 최소화하고 계산 밀도를 극대화합니다. 계산 밀도를 극대화합니다.
TPU는 Google 클라우드 에코시스템에 밀접하게 통합되어 다음과 같은 기능을 제공합니다. 대규모 학습을 위한 확장 가능한 리소스를 확장 가능한 리소스를 제공합니다. 또한 다음과 같은 프레임워크에 최적화되어 다음과 같은 프레임워크에 최적화되어 있습니다. TensorFlow 와 같은 프레임워크에 최적화되어 있으며 지원되는 PyTorch에서 점점 더 많이 지원되므로 개발자는 선호하는 코딩 환경을 변경하지 않고도 선호하는 코딩 환경을 변경하지 않고도 고성능 하드웨어를 활용할 수 있습니다.
모델 훈련 및 배포 워크플로우를 최적화하려면 서로 다른 처리 단위 간의 차이점을 이해하는 것이 중요합니다. 모델 훈련 및 배포 워크플로우를 최적화하는 데 필수적입니다.
TPU는 대규모 클라우드 기반 교육과 효율적인 엣지 배포 모두에서 중요한 역할을 합니다.
다음과 같이 작업하는 개발자를 위한 컴퓨터 비전(CV) 개발자의 경우, 저전력 디바이스에 모델을 배포하려면 저전력 디바이스에 모델을 배포하려면 표준 웨이트를 에지 TPU와 호환되는 형식으로 변환해야 하는 경우가 많습니다. Ultralytics 라이브러리는 이 모델 배포 프로세스를 간소화합니다. 사용자가 모델을 TensorFlow Lite Edge TPU 형식으로 직접 내보낼 수 있습니다.
이 프로세스에는 일반적으로 다음이 포함됩니다. 모델 양자화, 특수한 하드웨어 제약 조건에 맞게 숫자의 정밀도를 (예: 32비트 부동 소수점에서 8비트 정수로)를 특수한 하드웨어 제약 조건에 맞도록 줄이면서 정확도를 유지합니다.
from ultralytics import YOLO
# Load the official YOLO11 nano model
model = YOLO("yolo11n.pt")
# Export the model to Edge TPU format (int8 quantization)
# This creates a 'yolo11n_edgetpu.tflite' file for use on Coral devices
model.export(format="edgetpu")
이러한 모델을 내보낸 후에는 다음과 같은 작업에 배포할 수 있습니다. 임베디드 시스템에서 객체 감지, 최소한의 전력 소비로 빠른 추론 속도 제공 최소한의 전력 소비로 빠른 추론 속도를 제공합니다. 이 워크플로에 대한 자세한 내용은 다음 가이드를 참조하세요. 에지 TPU 통합 가이드를 참조하세요.