Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

TPU ( Tensor Đơn vị xử lý)

Khám phá cách Tensor Bộ xử lý (TPU) tăng tốc các tác vụ học máy như đào tạo, suy luận và phát hiện đối tượng với hiệu quả vô song.

MỘT Tensor Đơn vị xử lý ( TPU ) là một mạch tích hợp ứng dụng cụ thể được phát triển riêng (ASIC) được thiết kế bởi Google đặc biệt để tăng tốc khối lượng công việc học máy (ML) . Không giống như các bộ xử lý đa năng, TPU được thiết kế ngay từ đầu để xử lý nhu cầu tính toán khổng lồ của mạng nơ-ron , đặc biệt là các phép toán ma trận phức tạp cần thiết trong quá trình huấn luyện và suy luận. Bằng cách tối ưu hóa phần cứng cho các tác vụ cụ thể này, TPU mang lại thông lượng và hiệu suất năng lượng cao hơn đáng kể, trở thành nền tảng của cơ sở hạ tầng trí tuệ nhân tạo (AI) hiện đại trong môi trường đám mây và biên.

Kiến trúc và chức năng

Sức mạnh cốt lõi của một TPU nằm ở khả năng thực hiện phép nhân ma trận, phép toán cơ bản trong học sâu (DL) , với tốc độ đáng kinh ngạc. Trong khi các bộ xử lý tiêu chuẩn thực thi các lệnh tuần tự hoặc với mức độ song song hạn chế, TPU sử dụng kiến trúc mảng tâm thu cho phép dữ liệu chạy qua hàng nghìn bộ nhân cùng lúc. Thiết kế này giảm thiểu độ trễ truy cập bộ nhớ và tối đa hóa mật độ tính toán.

TPU được tích hợp mạnh mẽ vào hệ sinh thái Google Cloud , cung cấp tài nguyên có khả năng mở rộng để đào tạo các mô hình nền tảng lớn. Hơn nữa, chúng được tối ưu hóa cho các nền tảng như TensorFlow và ngày càng được PyTorch hỗ trợ, cho phép các nhà phát triển tận dụng phần cứng hiệu suất cao mà không cần thay đổi môi trường lập trình ưa thích của họ.

So sánh các đơn vị xử lý: CPU , GPU , Và TPU

Việc hiểu được sự khác biệt giữa các đơn vị xử lý khác nhau là rất quan trọng để tối ưu hóa quy trình đào tạo và triển khai mô hình .

  • CPU (Bộ xử lý trung tâm) : "Bộ não" của máy tính, được thiết kế để linh hoạt. CPU vượt trội về khả năng xử lý tuần tự và logic phức tạp nhưng nhìn chung chậm hơn so với khối lượng tính toán song song khổng lồ cần thiết trong AI.
  • GPU (Bộ xử lý đồ họa) : Ban đầu được thiết kế để kết xuất hình ảnh, GPU sở hữu hàng nghìn lõi, giúp chúng cực kỳ hiệu quả trong các tác vụ song song. Nhờ tính linh hoạt và hỗ trợ phần mềm mạnh mẽ như NVIDIA CUDA , chúng là tiêu chuẩn công nghiệp để đào tạo các mô hình đa năng như Ultralytics YOLO11 .
  • TPU : Một bộ tăng tốc chuyên dụng đánh đổi tính linh hoạt để lấy hiệu suất thô trong toán học ma trận. Trong khi GPU rất tuyệt vời cho nhiều loại nhiệm vụ khác nhau, một TPU được xây dựng có mục đích để tối đa hóa flops (các phép toán dấu chấm động mỗi giây) dành riêng cho tensor tính toán, thường mang lại hiệu suất trên mỗi watt tốt hơn cho AI quy mô lớn.

Các Ứng dụng Thực tế

TPU đóng vai trò quan trọng trong cả đào tạo đám mây quy mô lớn và triển khai hiệu quả ở biên.

  1. Mô hình ngôn ngữ lớn (LLM): Google sử dụng các cụm TPU lớn, được gọi là TPU Pods, dùng để huấn luyện các mô hình ngôn ngữ lớn (LLM) khổng lồ như PaLM và Gemini. Khả năng kết nối hàng nghìn chip cho phép các hệ thống này xử lý hàng petabyte dữ liệu huấn luyện chỉ trong một phần nhỏ thời gian so với các cụm truyền thống.
  2. AI và IoT biên: Ở quy mô nhỏ hơn, Edge TPU là một bộ tăng tốc phần cứng được thiết kế cho các thiết bị công suất thấp. Nó cho phép suy luận thời gian thực trên phần cứng như Coral Dev Board , cho phép phát hiện đối tượng và phân đoạn hình ảnh nhanh chóng tại biên mà không cần kết nối internet liên tục.

Triển khai Ultralytics Mô hình đến Edge TPU

Đối với các nhà phát triển làm việc với thị giác máy tính (CV) , việc triển khai các mô hình cho các thiết bị công suất thấp thường yêu cầu chuyển đổi trọng số tiêu chuẩn sang định dạng tương thích với Edge TPU. Ultralytics thư viện hợp lý hóa quy trình triển khai mô hình này bằng cách cho phép người dùng xuất mô hình trực tiếp sang TensorFlow Lite Edge TPU định dạng.

Quá trình này thường liên quan đến lượng tử hóa mô hình , làm giảm độ chính xác của các số (ví dụ: từ số thực 32 bit thành số nguyên 8 bit) để phù hợp với các ràng buộc phần cứng chuyên dụng trong khi vẫn duy trì độ chính xác.

from ultralytics import YOLO

# Load the official YOLO11 nano model
model = YOLO("yolo11n.pt")

# Export the model to Edge TPU format (int8 quantization)
# This creates a 'yolo11n_edgetpu.tflite' file for use on Coral devices
model.export(format="edgetpu")

Sau khi xuất, các mô hình này có thể được triển khai cho các tác vụ như phát hiện đối tượng trên hệ thống nhúng, mang lại tốc độ suy luận nhanh với mức tiêu thụ điện năng tối thiểu. Để biết thêm chi tiết về quy trình làm việc này, vui lòng tham khảo hướng dẫn về tích hợp Edge TPU .

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay