Khám phá cách Tensor Bộ xử lý (TPU) tăng tốc các tác vụ học máy như đào tạo, suy luận và phát hiện đối tượng với hiệu quả vô song.
MỘT Tensor Đơn vị xử lý ( TPU ) là một mạch tích hợp ứng dụng cụ thể được phát triển riêng (ASIC) được thiết kế bởi Google đặc biệt để tăng tốc khối lượng công việc học máy (ML) . Không giống như các bộ xử lý đa năng, TPU được thiết kế ngay từ đầu để xử lý nhu cầu tính toán khổng lồ của mạng nơ-ron , đặc biệt là các phép toán ma trận phức tạp cần thiết trong quá trình huấn luyện và suy luận. Bằng cách tối ưu hóa phần cứng cho các tác vụ cụ thể này, TPU mang lại thông lượng và hiệu suất năng lượng cao hơn đáng kể, trở thành nền tảng của cơ sở hạ tầng trí tuệ nhân tạo (AI) hiện đại trong môi trường đám mây và biên.
Sức mạnh cốt lõi của một TPU nằm ở khả năng thực hiện phép nhân ma trận, phép toán cơ bản trong học sâu (DL) , với tốc độ đáng kinh ngạc. Trong khi các bộ xử lý tiêu chuẩn thực thi các lệnh tuần tự hoặc với mức độ song song hạn chế, TPU sử dụng kiến trúc mảng tâm thu cho phép dữ liệu chạy qua hàng nghìn bộ nhân cùng lúc. Thiết kế này giảm thiểu độ trễ truy cập bộ nhớ và tối đa hóa mật độ tính toán.
TPU được tích hợp mạnh mẽ vào hệ sinh thái Google Cloud , cung cấp tài nguyên có khả năng mở rộng để đào tạo các mô hình nền tảng lớn. Hơn nữa, chúng được tối ưu hóa cho các nền tảng như TensorFlow và ngày càng được PyTorch hỗ trợ, cho phép các nhà phát triển tận dụng phần cứng hiệu suất cao mà không cần thay đổi môi trường lập trình ưa thích của họ.
Việc hiểu được sự khác biệt giữa các đơn vị xử lý khác nhau là rất quan trọng để tối ưu hóa quy trình đào tạo và triển khai mô hình .
TPU đóng vai trò quan trọng trong cả đào tạo đám mây quy mô lớn và triển khai hiệu quả ở biên.
Đối với các nhà phát triển làm việc với thị giác máy tính (CV) , việc triển khai các mô hình cho các thiết bị công suất thấp thường yêu cầu chuyển đổi trọng số tiêu chuẩn sang định dạng tương thích với Edge TPU. Ultralytics thư viện hợp lý hóa quy trình triển khai mô hình này bằng cách cho phép người dùng xuất mô hình trực tiếp sang TensorFlow Lite Edge TPU định dạng.
Quá trình này thường liên quan đến lượng tử hóa mô hình , làm giảm độ chính xác của các số (ví dụ: từ số thực 32 bit thành số nguyên 8 bit) để phù hợp với các ràng buộc phần cứng chuyên dụng trong khi vẫn duy trì độ chính xác.
from ultralytics import YOLO
# Load the official YOLO11 nano model
model = YOLO("yolo11n.pt")
# Export the model to Edge TPU format (int8 quantization)
# This creates a 'yolo11n_edgetpu.tflite' file for use on Coral devices
model.export(format="edgetpu")
Sau khi xuất, các mô hình này có thể được triển khai cho các tác vụ như phát hiện đối tượng trên hệ thống nhúng, mang lại tốc độ suy luận nhanh với mức tiêu thụ điện năng tối thiểu. Để biết thêm chi tiết về quy trình làm việc này, vui lòng tham khảo hướng dẫn về tích hợp Edge TPU .