Tối ưu hóa các mô hình AI cho các thiết bị biên bằng Đào tạo nhận biết lượng tử hóa (QAT), đảm bảo độ chính xác và hiệu quả cao trong môi trường hạn chế về tài nguyên.
Huấn luyện Nhận biết Lượng tử hóa (QAT) là một kỹ thuật tối ưu hóa mô hình tiên tiến giúp chuẩn bị mạng nơ-ron (NN) để triển khai với độ chính xác số học thấp hơn. Không giống như huấn luyện tiêu chuẩn sử dụng số dấu phẩy động 32 bit (FP32), QAT mô phỏng tác động của các phép tính số nguyên 8 bit (INT8) trong quá trình huấn luyện hoặc tinh chỉnh . Bằng cách giúp mô hình "nhận biết" các lỗi lượng tử hóa mà nó sẽ gặp phải trong quá trình suy luận , QAT cho phép mô hình điều chỉnh trọng số để giảm thiểu khả năng mất độ chính xác . Điều này tạo ra một mô hình nhỏ gọn, hiệu quả mà vẫn duy trì hiệu suất cao, lý tưởng cho việc triển khai trên phần cứng hạn chế tài nguyên.
Quy trình QAT thường bắt đầu với một mô hình FP32 được đào tạo trước. Các nút lượng tử hóa "giả" được chèn vào kiến trúc của mô hình, mô phỏng hiệu ứng chuyển đổi các giá trị dấu phẩy động sang số nguyên có độ chính xác thấp hơn và ngược lại. Sau đó, mô hình được đào tạo lại trên một tập dữ liệu đào tạo . Trong giai đoạn đào tạo lại này, mô hình học cách thích ứng với sự mất mát thông tin liên quan đến lượng tử hóa thông qua lan truyền ngược tiêu chuẩn. Điều này cho phép mô hình tìm ra một tập trọng số mạnh mẽ hơn, ít nhạy cảm hơn với độ chính xác giảm. Các nền tảng học sâu hàng đầu như PyTorch và TensorFlow cung cấp các công cụ và API mạnh mẽ để triển khai quy trình làm việc QAT.
QAT thường được so sánh với Lượng tử hóa sau đào tạo (PTQ), một phương pháp lượng tử hóa mô hình phổ biến khác. Sự khác biệt chính nằm ở thời điểm áp dụng lượng tử hóa.
Đào tạo nhận thức về lượng tử hóa rất quan trọng để triển khai các mô hình AI phức tạp trong môi trường hạn chế về tài nguyên, nơi hiệu quả là yếu tố then chốt.
QAT là một trong số các kỹ thuật tối ưu hóa triển khai mô hình và thường được sử dụng cùng với các kỹ thuật khác để đạt hiệu quả tối đa.
Ultralytics hỗ trợ xuất mô hình sang nhiều định dạng khác nhau như ONNX , TensorRT và TFLite , tương thích với quy trình làm việc QAT, cho phép triển khai hiệu quả trên nhiều phần cứng khác nhau từ các công ty như Intel và NVIDIA . Bạn có thể quản lý và triển khai các mô hình được tối ưu hóa QAT bằng các nền tảng như Ultralytics HUB . Việc đánh giá hiệu suất mô hình bằng các số liệu liên quan sau QAT là rất cần thiết để đảm bảo đáp ứng các yêu cầu về độ chính xác.