Khám phá cách Tensor Bộ xử lý (TPU) tăng tốc các tác vụ học máy như đào tạo, suy luận và phát hiện đối tượng với hiệu quả vô song.
MỘT Tensor Đơn vị xử lý ( TPU ) là một mạch tích hợp chuyên dụng (ASIC) được thiết kế riêng bởi Google Để tăng tốc các tác vụ học máy (ML) . Không giống như các bộ xử lý đa năng xử lý nhiều tác vụ tính toán khác nhau, TPU được thiết kế từ đầu để xử lý nhu cầu tính toán khổng lồ của mạng nơ-ron . Chúng đặc biệt tối ưu hóa các phép toán ma trận phức tạp cần thiết trong cả giai đoạn huấn luyện và suy luận của học sâu (DL) . Bằng cách tập trung tài nguyên phần cứng vào các tác vụ toán học cụ thể này, TPU cung cấp thông lượng và hiệu quả năng lượng cao hơn đáng kể, khiến chúng trở thành nền tảng của cơ sở hạ tầng trí tuệ nhân tạo (AI) hiện đại trong môi trường đám mây và biên.
Sức mạnh cốt lõi của một TPU Điểm mạnh của TPU nằm ở khả năng thực hiện phép nhân ma trận, phép toán cơ bản trong học sâu, với tốc độ đáng kinh ngạc. Trong khi các bộ xử lý tiêu chuẩn thực hiện các lệnh tuần tự hoặc với độ song song hạn chế, TPU sử dụng kiến trúc mảng song song cho phép dữ liệu truyền qua hàng nghìn bộ nhân cùng một lúc. Thiết kế này giảm thiểu độ trễ truy cập bộ nhớ và tối đa hóa mật độ tính toán, cho phép xử lý nhanh chóng các tập dữ liệu lớn.
TPU được tích hợp sâu rộng vào hệ sinh thái Google Cloud , cung cấp tài nguyên có khả năng mở rộng để huấn luyện các mô hình nền tảng quy mô lớn. Hơn nữa, chúng được tối ưu hóa cho các framework như TensorFlow và ngày càng được PyTorch hỗ trợ, cho phép các nhà phát triển tận dụng phần cứng hiệu năng cao mà không cần thay đổi đáng kể môi trường lập trình ưa thích của họ.
Việc hiểu được sự khác biệt giữa các đơn vị xử lý khác nhau là rất quan trọng để tối ưu hóa quy trình đào tạo và triển khai mô hình .
TPU đóng vai trò quan trọng trong cả đào tạo đám mây quy mô lớn và triển khai hiệu quả ở biên.
Đối với các nhà phát triển làm việc với thị giác máy tính, việc triển khai mô hình lên các thiết bị có hiệu năng thấp thường yêu cầu chuyển đổi trọng số tiêu chuẩn sang định dạng tương thích với Edge TPU. Ultralytics Thư viện này giúp đơn giản hóa quy trình triển khai mô hình bằng cách cho phép người dùng xuất mô hình trực tiếp sang TensorFlow Lite Edge. TPU định dạng.
Quá trình này thường liên quan đến lượng tử hóa mô hình , làm giảm độ chính xác của các số (ví dụ: từ số thực 32 bit thành số nguyên 8 bit) để phù hợp với các ràng buộc phần cứng chuyên dụng trong khi vẫn duy trì độ chính xác.
from ultralytics import YOLO
# Load the official YOLO26 nano model
model = YOLO("yolo26n.pt")
# Export the model to Edge TPU format (int8 quantization)
# This creates a 'yolo26n_edgetpu.tflite' file for use on Coral devices
model.export(format="edgetpu")
Sau khi xuất khẩu, các mô hình này có thể được triển khai cho các tác vụ như phát hiện đối tượng trên các hệ thống nhúng, cung cấp tốc độ suy luận nhanh với mức tiêu thụ điện năng tối thiểu. Để biết thêm chi tiết về quy trình này, hãy tham khảo hướng dẫn về tích hợp Edge TPU .