Thuật ngữ

Đào tạo về lượng tử hóa (QAT)

Tối ưu hóa các mô hình AI cho các thiết bị biên bằng Đào tạo nhận biết lượng tử hóa (QAT), đảm bảo độ chính xác và hiệu quả cao trong môi trường hạn chế về tài nguyên.

Huấn luyện Nhận biết Lượng tử hóa (QAT) là một kỹ thuật tối ưu hóa mô hình tiên tiến giúp chuẩn bị mạng nơ-ron (NN) để triển khai với độ chính xác số học thấp hơn. Không giống như huấn luyện tiêu chuẩn sử dụng số dấu phẩy động 32 bit (FP32), QAT mô phỏng tác động của các phép tính số nguyên 8 bit (INT8) trong quá trình huấn luyện hoặc tinh chỉnh . Bằng cách giúp mô hình "nhận biết" các lỗi lượng tử hóa mà nó sẽ gặp phải trong quá trình suy luận , QAT cho phép mô hình điều chỉnh trọng số để giảm thiểu khả năng mất độ chính xác . Điều này tạo ra một mô hình nhỏ gọn, hiệu quả mà vẫn duy trì hiệu suất cao, lý tưởng cho việc triển khai trên phần cứng hạn chế tài nguyên.

Đào tạo nhận thức lượng tử hoạt động như thế nào

Quy trình QAT thường bắt đầu với một mô hình FP32 được đào tạo trước. Các nút lượng tử hóa "giả" được chèn vào kiến trúc của mô hình, mô phỏng hiệu ứng chuyển đổi các giá trị dấu phẩy động sang số nguyên có độ chính xác thấp hơn và ngược lại. Sau đó, mô hình được đào tạo lại trên một tập dữ liệu đào tạo . Trong giai đoạn đào tạo lại này, mô hình học cách thích ứng với sự mất mát thông tin liên quan đến lượng tử hóa thông qua lan truyền ngược tiêu chuẩn. Điều này cho phép mô hình tìm ra một tập trọng số mạnh mẽ hơn, ít nhạy cảm hơn với độ chính xác giảm. Các nền tảng học sâu hàng đầu như PyTorchTensorFlow cung cấp các công cụ và API mạnh mẽ để triển khai quy trình làm việc QAT.

QAT so với Lượng tử hóa sau đào tạo

QAT thường được so sánh với Lượng tử hóa sau đào tạo (PTQ), một phương pháp lượng tử hóa mô hình phổ biến khác. Sự khác biệt chính nằm ở thời điểm áp dụng lượng tử hóa.

  • Lượng tử hóa sau huấn luyện (PTQ): Phương pháp này được áp dụng sau khi mô hình đã được huấn luyện đầy đủ. Đây là một quy trình đơn giản và nhanh hơn, không yêu cầu huấn luyện lại hoặc truy cập dữ liệu huấn luyện ban đầu. Tuy nhiên, đôi khi nó có thể làm giảm đáng kể độ chính xác của mô hình, đặc biệt là đối với các mô hình nhạy cảm.
  • Huấn luyện Nhận thức Lượng tử hóa (QAT): Phương pháp này tích hợp lượng tử hóa vào vòng lặp huấn luyện. Mặc dù tốn nhiều tính toán hơn và yêu cầu truy cập dữ liệu huấn luyện, QAT hầu như luôn mang lại độ chính xác cao hơn cho mô hình lượng tử hóa cuối cùng so với PTQ. Đây là phương pháp được ưu tiên khi việc tối đa hóa hiệu suất là rất quan trọng.

Ứng dụng thực tế của QAT

Đào tạo nhận thức về lượng tử hóa rất quan trọng để triển khai các mô hình AI phức tạp trong môi trường hạn chế về tài nguyên, nơi hiệu quả là yếu tố then chốt.

  1. Thị giác máy tính trên thiết bị: Chạy các mô hình thị giác máy tính phức tạp như Ultralytics YOLOv8 trực tiếp trên điện thoại thông minh cho các ứng dụng như phát hiện đối tượng theo thời gian thực trong các ứng dụng thực tế tăng cường hoặc phân loại hình ảnh trong các công cụ quản lý ảnh. QAT cho phép các mô hình này chạy hiệu quả mà không làm hao pin hoặc độ trễ đáng kể.
  2. Edge AI trong ô tô và robot: Triển khai các mô hình cho các nhiệm vụ như phát hiện người đi bộ hoặc hỗ trợ giữ làn đường trong xe tự hành hoặc để thao tác đối tượng trong robot . QAT cho phép các mô hình này chạy trên phần cứng chuyên dụng như Google Edge TPU hoặc NVIDIA Jetson , đảm bảo độ trễ suy luận thấp cho các quyết định quan trọng theo thời gian thực. Điều này rất quan trọng đối với các ứng dụng như hệ thống báo động an ninh hoặc quản lý bãi đậu xe .

Mối quan hệ với các kỹ thuật tối ưu hóa khác

QAT là một trong số các kỹ thuật tối ưu hóa triển khai mô hình và thường được sử dụng cùng với các kỹ thuật khác để đạt hiệu quả tối đa.

  • Cắt tỉa Mô hình : Bao gồm việc loại bỏ các kết nối dư thừa hoặc không quan trọng khỏi mạng. Một mô hình có thể được cắt tỉa trước rồi sau đó trải qua QAT để đạt được mức nén cao hơn.
  • Chắt lọc kiến thức : Huấn luyện một mô hình "học viên" nhỏ hơn để mô phỏng một mô hình "giáo viên" lớn hơn. Mô hình học viên kết quả sau đó có thể được tối ưu hóa hơn nữa bằng QAT.

Ultralytics hỗ trợ xuất mô hình sang nhiều định dạng khác nhau như ONNX , TensorRTTFLite , tương thích với quy trình làm việc QAT, cho phép triển khai hiệu quả trên nhiều phần cứng khác nhau từ các công ty như IntelNVIDIA . Bạn có thể quản lý và triển khai các mô hình được tối ưu hóa QAT bằng các nền tảng như Ultralytics HUB . Việc đánh giá hiệu suất mô hình bằng các số liệu liên quan sau QAT là rất cần thiết để đảm bảo đáp ứng các yêu cầu về độ chính xác.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard