Khám phá cách thức Tensor Bộ xử lý đồ họa (TPU) tăng tốc quá trình học máy. Hãy học cách tối ưu hóa. Ultralytics YOLO26 dành cho Edge TPUs và huấn luyện trên nền tảng đám mây để đạt tốc độ tối đa.
MỘT Tensor Đơn vị xử lý ( TPU ) là một mạch tích hợp chuyên dụng (ASIC) được thiết kế bởi Google Đặc biệt là để tăng tốc các tác vụ học máy (ML) . Không giống như các bộ xử lý đa năng xử lý nhiều tác vụ tính toán khác nhau, TPU được thiết kế từ đầu để tối ưu hóa các phép toán ma trận khổng lồ, nền tảng của mạng nơ-ron . Sự tập trung cụ thể này cho phép chúng đạt được thông lượng và hiệu quả năng lượng cực cao, trở thành nền tảng của cơ sở hạ tầng trí tuệ nhân tạo (AI) hiện đại, đặc biệt là trong hệ sinh thái Google Cloud . Chúng đóng vai trò quan trọng trong việc giảm thời gian cần thiết cho cả việc huấn luyện các mô hình phức tạp và chạy suy luận thời gian thực ở quy mô lớn.
Kiến trúc của một TPU Khác biệt đáng kể so với các bộ xử lý truyền thống. Trong khi CPU (Bộ xử lý trung tâm) tiêu chuẩn vượt trội trong các tác vụ tuần tự và logic phức tạp, và GPU (Bộ xử lý trung tâm) tiêu chuẩn hoạt động tốt trong các tác vụ tuần tự và logic phức tạp, và GPU (Bộ xử lý đồ họa) sử dụng các lõi song song cho đồ TPU Nó sử dụng kiến trúc mảng song song . Thiết kế này cho phép dữ liệu truyền qua hàng ngàn bộ nhân đồng thời mà không cần truy cập bộ nhớ cho mỗi phép toán. Bằng cách tối đa hóa mật độ tính toán và giảm thiểu độ trễ, TPU đặc biệt phù hợp với các phép toán đại số tuyến tính phức tạp thường thấy trong các ứng dụng học sâu (DL) .
Phần cứng chuyên dụng này được tối ưu hóa cao cho các framework như TensorFlow và ngày càng được PyTorch hỗ trợ, cho phép các nhà phát triển huấn luyện các mô hình nền tảng quy mô lớn hoặc triển khai các giải pháp biên hiệu quả mà không cần viết lại hoàn toàn mã nguồn của họ.
Hiểu rõ về môi trường phần cứng là điều vô cùng quan trọng để tối ưu hóa các hoạt động học máy (MLOps) .
TPU được triển khai trong nhiều môi trường khác nhau, từ các cụm máy chủ đám mây khổng lồ đến các thiết bị biên nhỏ gọn.
Các nhà phát triển có thể tận dụng TPU gia tốc cho Ultralytics các mô hình, đặc biệt khi sử dụng Nền tảng Ultralytics để huấn luyện trên đám mây hoặc xuất các mô hình để triển khai ở biên. Biên TPU Ví dụ, nó yêu cầu các mô hình phải được lượng tử hóa và biên dịch riêng cho kiến trúc của nó.
Ví dụ sau đây minh họa cách xuất mô hình YOLO26 sang... TFLite định dạng này là bước bắt buộc trước khi biên dịch cho Edge. TPU :
from ultralytics import YOLO
# Load the latest lightweight YOLO26 nano model
model = YOLO("yolo26n.pt")
# Export the model to TFLite format
# This creates a '.tflite' file suitable for mobile and edge deployment
# Set int8=True for quantization, which is often required for Edge TPU performance
model.export(format="tflite", int8=True)
Sau khi xuất khẩu, mô hình có thể được biên dịch thêm cho Edge. TPU Sử dụng trình biên dịch Edge TPU , cho phép nó chạy hiệu quả trên các thiết bị như Raspberry Pi với bộ tăng tốc USB Coral. Để biết thêm chi tiết về triển khai, việc tham khảo tài liệu tích hợp TFLite sẽ rất hữu ích.