Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

TPU ( Tensor Đơn vị xử lý)

Khám phá cách Tensor Bộ xử lý (TPU) tăng tốc các tác vụ học máy như đào tạo, suy luận và phát hiện đối tượng với hiệu quả vô song.

MỘT Tensor Đơn vị xử lý ( TPU ) là một mạch tích hợp chuyên dụng (ASIC) được thiết kế riêng bởi Google Để tăng tốc các tác vụ học máy (ML) . Không giống như các bộ xử lý đa năng xử lý nhiều tác vụ tính toán khác nhau, TPU được thiết kế từ đầu để xử lý nhu cầu tính toán khổng lồ của mạng nơ-ron . Chúng đặc biệt tối ưu hóa các phép toán ma trận phức tạp cần thiết trong cả giai đoạn huấn luyện và suy luận của học sâu (DL) . Bằng cách tập trung tài nguyên phần cứng vào các tác vụ toán học cụ thể này, TPU cung cấp thông lượng và hiệu quả năng lượng cao hơn đáng kể, khiến chúng trở thành nền tảng của cơ sở hạ tầng trí tuệ nhân tạo (AI) hiện đại trong môi trường đám mây và biên.

Kiến trúc và chức năng

Sức mạnh cốt lõi của một TPU Điểm mạnh của TPU nằm ở khả năng thực hiện phép nhân ma trận, phép toán cơ bản trong học sâu, với tốc độ đáng kinh ngạc. Trong khi các bộ xử lý tiêu chuẩn thực hiện các lệnh tuần tự hoặc với độ song song hạn chế, TPU sử dụng kiến trúc mảng song song cho phép dữ liệu truyền qua hàng nghìn bộ nhân cùng một lúc. Thiết kế này giảm thiểu độ trễ truy cập bộ nhớ và tối đa hóa mật độ tính toán, cho phép xử lý nhanh chóng các tập dữ liệu lớn.

TPU được tích hợp sâu rộng vào hệ sinh thái Google Cloud , cung cấp tài nguyên có khả năng mở rộng để huấn luyện các mô hình nền tảng quy mô lớn. Hơn nữa, chúng được tối ưu hóa cho các framework như TensorFlow và ngày càng được PyTorch hỗ trợ, cho phép các nhà phát triển tận dụng phần cứng hiệu năng cao mà không cần thay đổi đáng kể môi trường lập trình ưa thích của họ.

So sánh các đơn vị xử lý: CPU , GPU , Và TPU

Việc hiểu được sự khác biệt giữa các đơn vị xử lý khác nhau là rất quan trọng để tối ưu hóa quy trình đào tạo và triển khai mô hình .

  • CPU (Bộ xử lý trung tâm) : "Bộ não" của máy tính, được thiết kế để đa năng. CPU hoạt động xuất sắc trong xử lý tuần tự và logic phức tạp nhưng thường chậm hơn đối với các tác vụ tính toán song song quy mô lớn cần thiết trong trí tuệ nhân tạo.
  • GPU (Bộ xử lý đồ họa) : Ban đầu được xây dựng để xử lý hình ảnh, GPU có hàng nghìn lõi, giúp chúng hoạt động hiệu quả cao trong các tác vụ song song. Chúng là tiêu chuẩn công nghiệp để huấn luyện các mô hình đa năng như Ultralytics YOLO26 nhờ tính linh hoạt và khả năng hỗ trợ phần mềm mạnh mẽ.
  • TPU : Một bộ tăng tốc chuyên dụng, đánh đổi tính linh hoạt lấy hiệu năng thô trong các phép toán ma trận. Trong khi đó, GPU rất tuyệt vời cho nhiều nhiệm vụ khác nhau, một TPU được thiết kế chuyên dụng để tối đa hóa FLOPS (số phép toán dấu phẩy động mỗi giây) dành riêng cho tensor các phép tính, thường mang lại hiệu suất trên mỗi watt tốt hơn cho AI quy mô lớn.

Các Ứng dụng Thực tế

TPU đóng vai trò quan trọng trong cả đào tạo đám mây quy mô lớn và triển khai hiệu quả ở biên.

  1. Mô hình ngôn ngữ lớn (LLM): Google sử dụng các cụm TPU lớn, được gọi là TPU Pods, dùng để huấn luyện các mô hình ngôn ngữ lớn (LLM) khổng lồ như PaLM và Gemini. Khả năng kết nối hàng nghìn chip cho phép các hệ thống này xử lý hàng petabyte dữ liệu huấn luyện chỉ trong một phần nhỏ thời gian so với các cụm truyền thống.
  2. AI và IoT tại biên: Ở quy mô nhỏ hơn, điện toán biên (Edge) TPU Đây là bộ tăng tốc phần cứng được thiết kế cho các thiết bị tiêu thụ điện năng thấp. Nó cho phép suy luận thời gian thực trên phần cứng như Coral Dev Board , cho phép thực hiện các tác vụ thị giác máy tính (CV) nhanh chóng như phát hiện đối tượng và phân đoạn hình ảnh ở thiết bị biên mà không cần phụ thuộc vào kết nối internet liên tục.

Triển khai Ultralytics Mô hình đến Edge TPU

Đối với các nhà phát triển làm việc với thị giác máy tính, việc triển khai mô hình lên các thiết bị có hiệu năng thấp thường yêu cầu chuyển đổi trọng số tiêu chuẩn sang định dạng tương thích với Edge TPU. Ultralytics Thư viện này giúp đơn giản hóa quy trình triển khai mô hình bằng cách cho phép người dùng xuất mô hình trực tiếp sang TensorFlow Lite Edge. TPU định dạng.

Quá trình này thường liên quan đến lượng tử hóa mô hình , làm giảm độ chính xác của các số (ví dụ: từ số thực 32 bit thành số nguyên 8 bit) để phù hợp với các ràng buộc phần cứng chuyên dụng trong khi vẫn duy trì độ chính xác.

from ultralytics import YOLO

# Load the official YOLO26 nano model
model = YOLO("yolo26n.pt")

# Export the model to Edge TPU format (int8 quantization)
# This creates a 'yolo26n_edgetpu.tflite' file for use on Coral devices
model.export(format="edgetpu")

Sau khi xuất khẩu, các mô hình này có thể được triển khai cho các tác vụ như phát hiện đối tượng trên các hệ thống nhúng, cung cấp tốc độ suy luận nhanh với mức tiêu thụ điện năng tối thiểu. Để biết thêm chi tiết về quy trình này, hãy tham khảo hướng dẫn về tích hợp Edge TPU .

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay