Khám phá cách Knowledge Distillation nén các mô hình AI để suy luận nhanh hơn, cải thiện độ chính xác và hiệu quả triển khai thiết bị biên.
Knowledge Distillation là một kỹ thuật trong học máy (ML) trong đó một mô hình nhỏ hơn, gọn nhẹ hơn (gọi là "học sinh") được đào tạo để bắt chước hành vi của một mô hình lớn hơn, phức tạp hơn (gọi là "giáo viên"). Mục tiêu chính là chuyển "kiến thức" mà mô hình giáo viên học được sang mô hình học sinh, cho phép học sinh đạt được hiệu suất tương đương nhưng với các yêu cầu tính toán thấp hơn đáng kể, chẳng hạn như giảm kích thước và độ trễ suy luận nhanh hơn. Điều này làm cho các mô hình học sâu (DL) phức tạp trở nên thiết thực để triển khai trên các môi trường hạn chế về tài nguyên như thiết bị di động hoặc nền tảng điện toán biên . Khái niệm này đã được phổ biến bởi Geoffrey Hinton và các đồng nghiệp trong bài báo " Distilling the Knowledge in a Neural Network " của họ.
Quá trình này thường liên quan đến một mô hình giáo viên được đào tạo trước, có thể là một mô hình mạnh mẽ duy nhất hoặc một tập hợp các mô hình được biết đến với độ chính xác cao. Mô hình học sinh, thường có ít tham số hơn hoặc kiến trúc nông hơn (ví dụ: Mạng nơ-ron tích chập (CNN) nhỏ hơn), sau đó được đào tạo bằng cách sử dụng đầu ra của mô hình giáo viên làm hướng dẫn. Thay vì chỉ sử dụng các nhãn cứng (sự thật cơ bản) từ dữ liệu đào tạo , học sinh thường học từ "mục tiêu mềm" của giáo viên—phân phối xác suất đầy đủ do giáo viên dự đoán trên tất cả các lớp. Các mục tiêu mềm này chứa thông tin phong phú hơn về cách mô hình giáo viên tổng quát hóa và biểu diễn điểm tương đồng giữa các lớp. Một hàm mất mát đặc biệt, thường được gọi là mất mát chưng cất, được sử dụng để giảm thiểu sự khác biệt giữa dự đoán của học sinh và mục tiêu mềm của giáo viên, đôi khi kết hợp với mất mát tiêu chuẩn được tính toán bằng cách sử dụng các nhãn thực tế.
Chưng cất kiến thức mang lại một số lợi thế chính:
Phương pháp chưng cất kiến thức được sử dụng rộng rãi trong nhiều lĩnh vực khác nhau:
Chưng cất kiến thức có liên quan nhưng khác biệt với các kỹ thuật tối ưu hóa mô hình khác:
Knowledge Distillation là một công cụ mạnh mẽ giúp các mô hình AI tiên tiến dễ tiếp cận và hiệu quả hơn, thu hẹp khoảng cách giữa các mô hình nghiên cứu quy mô lớn và triển khai mô hình thực tế, thiết thực. Các nền tảng như Ultralytics HUB tạo điều kiện thuận lợi cho việc đào tạo và triển khai các mô hình có khả năng được chưng cất như YOLOv8 hoặc YOLO11 .