Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

TPU ( Tensor Đơn vị xử lý)

Khám phá cách thức Tensor Bộ xử lý đồ họa (TPU) tăng tốc quá trình học máy. Hãy học cách tối ưu hóa. Ultralytics YOLO26 dành cho Edge TPUs và huấn luyện trên nền tảng đám mây để đạt tốc độ tối đa.

MỘT Tensor Đơn vị xử lý ( TPU ) là một mạch tích hợp chuyên dụng (ASIC) được thiết kế bởi Google Đặc biệt là để tăng tốc các tác vụ học máy (ML) . Không giống như các bộ xử lý đa năng xử lý nhiều tác vụ tính toán khác nhau, TPU được thiết kế từ đầu để tối ưu hóa các phép toán ma trận khổng lồ, nền tảng của mạng nơ-ron . Sự tập trung cụ thể này cho phép chúng đạt được thông lượng và hiệu quả năng lượng cực cao, trở thành nền tảng của cơ sở hạ tầng trí tuệ nhân tạo (AI) hiện đại, đặc biệt là trong hệ sinh thái Google Cloud . Chúng đóng vai trò quan trọng trong việc giảm thời gian cần thiết cho cả việc huấn luyện các mô hình phức tạp và chạy suy luận thời gian thực ở quy mô lớn.

Kiến trúc và chức năng

Kiến trúc của một TPU Khác biệt đáng kể so với các bộ xử lý truyền thống. Trong khi CPU (Bộ xử lý trung tâm) tiêu chuẩn vượt trội trong các tác vụ tuần tự và logic phức tạp, và GPU (Bộ xử lý trung tâm) tiêu chuẩn hoạt động tốt trong các tác vụ tuần tự và logic phức tạp, và GPU (Bộ xử lý đồ họa) sử dụng các lõi song song cho đồ TPU Nó sử dụng kiến ​​trúc mảng song song . Thiết kế này cho phép dữ liệu truyền qua hàng ngàn bộ nhân đồng thời mà không cần truy cập bộ nhớ cho mỗi phép toán. Bằng cách tối đa hóa mật độ tính toán và giảm thiểu độ trễ, TPU đặc biệt phù hợp với các phép toán đại số tuyến tính phức tạp thường thấy trong các ứng dụng học sâu (DL) .

Phần cứng chuyên dụng này được tối ưu hóa cao cho các framework như TensorFlow và ngày càng được PyTorch hỗ trợ, cho phép các nhà phát triển huấn luyện các mô hình nền tảng quy mô lớn hoặc triển khai các giải pháp biên hiệu quả mà không cần viết lại hoàn toàn mã nguồn của họ.

Phân biệt các đơn vị xử lý

Hiểu rõ về môi trường phần cứng là điều vô cùng quan trọng để tối ưu hóa các hoạt động học máy (MLOps) .

  • CPU : Là "bộ não" đa năng của máy tính, lý tưởng cho việc xử lý tuần tự, tiền xử lý dữ liệu và xử lý logic phức tạp. Nó thường được sử dụng cho các quy trình tăng cường dữ liệu nhưng lại chậm hơn đối với các phép toán ma trận nặng.
  • GPU : Ban đầu được xây dựng để xử lý hình ảnh, GPU hiện là tiêu chuẩn công nghiệp cho việc huấn luyện mô hình nhờ tính linh hoạt và khả năng xử lý song song mạnh mẽ. Chúng rất phù hợp để huấn luyện các mô hình linh hoạt như Ultralytics YOLO26 .
  • TPU : Một bộ tăng tốc được thiết kế chuyên dụng, đánh đổi tính linh hoạt để có tốc độ xử lý vượt trội. tensor Nó được thiết kế để tối đa hóa FLOPS (số phép toán dấu phẩy động mỗi giây) đặc biệt cho các phép tính mạng nơ- ron, thường cung cấp hiệu suất trên mỗi watt vượt trội cho các khối lượng công việc quy mô lớn cụ thể.

Các Ứng dụng Thực tế

TPU được triển khai trong nhiều môi trường khác nhau, từ các cụm máy chủ đám mây khổng lồ đến các thiết bị biên nhỏ gọn.

  1. Đào tạo mô hình ngôn ngữ quy mô lớn: Google sử dụng các cụm máy tính khổng lồ được kết nối với nhau, được gọi là TPU Các hệ thống Pods được sử dụng để huấn luyện các mô hình ngôn ngữ quy mô lớn (LLM) như PaLM và Gemini. Những hệ thống này có thể xử lý hàng petabyte dữ liệu huấn luyện trong thời gian ngắn hơn nhiều so với phần cứng truyền thống, thúc đẩy sự phát triển của trí tuệ nhân tạo tạo sinh .
  2. AI và IoT biên: Coral Edge TPU mang lại khả năng tăng tốc này cho các thiết bị tiêu thụ điện năng thấp. Nó cho phép các ứng dụng thị giác máy tính (CV) hiệu quả, chẳng hạn như chạy phát hiện đối tượng trên dây chuyền sản xuất để xác định lỗi tại chỗ. Điều này cho phép đưa ra quyết định tức thì mà không cần dựa vào kết nối đám mây, giúp bảo toàn băng thông và quyền riêng tư.

Sử dụng TPU với Ultralytics

Các nhà phát triển có thể tận dụng TPU gia tốc cho Ultralytics các mô hình, đặc biệt khi sử dụng Nền tảng Ultralytics để huấn luyện trên đám mây hoặc xuất các mô hình để triển khai ở biên. Biên TPU Ví dụ, nó yêu cầu các mô hình phải được lượng tử hóa và biên dịch riêng cho kiến ​​trúc của nó.

Ví dụ sau đây minh họa cách xuất mô hình YOLO26 sang... TFLite định dạng này là bước bắt buộc trước khi biên dịch cho Edge. TPU :

from ultralytics import YOLO

# Load the latest lightweight YOLO26 nano model
model = YOLO("yolo26n.pt")

# Export the model to TFLite format
# This creates a '.tflite' file suitable for mobile and edge deployment
# Set int8=True for quantization, which is often required for Edge TPU performance
model.export(format="tflite", int8=True)

Sau khi xuất khẩu, mô hình có thể được biên dịch thêm cho Edge. TPU Sử dụng trình biên dịch Edge TPU , cho phép nó chạy hiệu quả trên các thiết bị như Raspberry Pi với bộ tăng tốc USB Coral. Để biết thêm chi tiết về triển khai, việc tham khảo tài liệu tích hợp TFLite sẽ rất hữu ích.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay