Thuật ngữ

Chưng cất kiến thức

Khám phá cách Knowledge Distillation nén các mô hình AI để suy luận nhanh hơn, cải thiện độ chính xác và hiệu quả triển khai thiết bị biên.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Knowledge Distillation là một kỹ thuật trong học máy (ML) trong đó một mô hình nhỏ hơn, gọn nhẹ hơn (gọi là "học sinh") được đào tạo để bắt chước hành vi của một mô hình lớn hơn, phức tạp hơn (gọi là "giáo viên"). Mục tiêu chính là chuyển "kiến thức" mà mô hình giáo viên học được sang mô hình học sinh, cho phép học sinh đạt được hiệu suất tương đương nhưng với các yêu cầu tính toán thấp hơn đáng kể, chẳng hạn như giảm kích thước và độ trễ suy luận nhanh hơn. Điều này làm cho các mô hình học sâu (DL) phức tạp trở nên thiết thực để triển khai trên các môi trường hạn chế về tài nguyên như thiết bị di động hoặc nền tảng điện toán biên . Khái niệm này đã được phổ biến bởi Geoffrey Hinton và các đồng nghiệp trong bài báo " Distilling the Knowledge in a Neural Network " của họ.

Quá trình chưng cất kiến thức diễn ra như thế nào

Quá trình này thường liên quan đến một mô hình giáo viên được đào tạo trước, có thể là một mô hình mạnh mẽ duy nhất hoặc một tập hợp các mô hình được biết đến với độ chính xác cao. Mô hình học sinh, thường có ít tham số hơn hoặc kiến trúc nông hơn (ví dụ: Mạng nơ-ron tích chập (CNN) nhỏ hơn), sau đó được đào tạo bằng cách sử dụng đầu ra của mô hình giáo viên làm hướng dẫn. Thay vì chỉ sử dụng các nhãn cứng (sự thật cơ bản) từ dữ liệu đào tạo , học sinh thường học từ "mục tiêu mềm" của giáo viên—phân phối xác suất đầy đủ do giáo viên dự đoán trên tất cả các lớp. Các mục tiêu mềm này chứa thông tin phong phú hơn về cách mô hình giáo viên tổng quát hóa và biểu diễn điểm tương đồng giữa các lớp. Một hàm mất mát đặc biệt, thường được gọi là mất mát chưng cất, được sử dụng để giảm thiểu sự khác biệt giữa dự đoán của học sinh và mục tiêu mềm của giáo viên, đôi khi kết hợp với mất mát tiêu chuẩn được tính toán bằng cách sử dụng các nhãn thực tế.

Lợi ích và tầm quan trọng

Chưng cất kiến thức mang lại một số lợi thế chính:

  • Nén mô hình: Tạo các mô hình nhỏ hơn, chiếm ít không gian lưu trữ hơn.
  • Suy luận nhanh hơn: Độ phức tạp của mô hình giảm dẫn đến dự đoán nhanh hơn, rất quan trọng cho các ứng dụng suy luận thời gian thực .
  • Hiệu quả năng lượng: Các mô hình nhỏ hơn tiêu thụ ít điện năng hơn, điều này quan trọng đối với các thiết bị chạy bằng pin và các hoạt động AI bền vững. Xem hướng dẫn về An toàn và Sức khỏe Môi trường Ultralytics .
  • Triển khai trên thiết bị biên: Cho phép sử dụng các chức năng AI mạnh mẽ trên phần cứng có bộ nhớ và công suất xử lý hạn chế, như Raspberry Pi hoặc NVIDIA Jetson .
  • Cải thiện hiệu suất tiềm năng: Đôi khi, mô hình học viên có thể khái quát hóa tốt hơn mô hình có kích thước tương tự được đào tạo trực tiếp trên nhãn cứng, vì nó học từ tín hiệu giám sát phong phú hơn do giáo viên cung cấp.

Ứng dụng trong thế giới thực

Phương pháp chưng cất kiến thức được sử dụng rộng rãi trong nhiều lĩnh vực khác nhau:

  1. Thị giác máy tính: Các mô hình phát hiện đối tượng lớn hoặc phân đoạn hình ảnh , như các phiên bản phức tạp của Ultralytics YOLO hoặc Vision Transformers (ViT) , có thể được chưng cất thành các phiên bản nhẹ phù hợp với ứng dụng di động ( Ứng dụng Ultralytics HUB ) hoặc hệ thống nhúng trong xe tự hành hoặc rô bốt . Ví dụ, Intuitivo sử dụng phương pháp chưng cất kiến thức để chuyển kiến thức từ các mô hình nền tảng lớn sang các mô hình nhỏ hơn, tiết kiệm chi phí để mở rộng quy mô hàng triệu điểm mua hàng tự động, giúp tăng tốc chú thích đáng kể (Nguồn: YOLO Vision 2023 Talk) .
  2. Xử lý ngôn ngữ tự nhiên (NLP): Các mô hình ngôn ngữ lớn (LLM) như BERT hoặc GPT thường được chắt lọc thành các phiên bản nhỏ hơn (ví dụ: DistilBERT của Hugging Face ) cho các tác vụ như phân tích tình cảm hoặc trả lời câu hỏi trên các thiết bị có ngân sách tính toán hạn chế hoặc cho các ứng dụng yêu cầu độ trễ thấp hơn, chẳng hạn như chatbot .

Các khái niệm liên quan

Chưng cất kiến thức có liên quan nhưng khác biệt với các kỹ thuật tối ưu hóa mô hình khác:

  • Cắt tỉa mô hình : Bao gồm việc loại bỏ các trọng số hoặc kết nối ít quan trọng hơn khỏi mạng đã được đào tạo để giảm kích thước của nó. Chưng cất đào tạo một mạng mới, nhỏ hơn.
  • Lượng tử hóa mô hình : Giảm độ chính xác về mặt số của trọng số mô hình (ví dụ: từ số thực 32 bit thành số nguyên 8 bit) để giảm kích thước và tăng tốc độ tính toán, thường được sử dụng cùng hoặc sau khi chưng cất. Xem các tích hợp như ONNX hoặc TensorRT .
  • Chuyển giao học tập : Tái sử dụng các phần của mô hình được đào tạo trước (thường là xương sống ) và tinh chỉnh nó trên một tập dữ liệu hoặc nhiệm vụ mới. Chưng cất tập trung vào việc chuyển giao hành vi dự đoán của giáo viên sang một kiến trúc học sinh có khả năng khác.
  • Học liên bang : Đào tạo các mô hình trên các thiết bị phi tập trung mà không chia sẻ dữ liệu thô, tập trung vào quyền riêng tư. Chưng cất tập trung vào nén mô hình.

Knowledge Distillation là một công cụ mạnh mẽ giúp các mô hình AI tiên tiến dễ tiếp cận và hiệu quả hơn, thu hẹp khoảng cách giữa các mô hình nghiên cứu quy mô lớn và triển khai mô hình thực tế, thiết thực. Các nền tảng như Ultralytics HUB tạo điều kiện thuận lợi cho việc đào tạo và triển khai các mô hình có khả năng được chưng cất như YOLOv8 hoặc YOLO11 .

Đọc tất cả