Nâng cao độ chính xác và tính mạnh mẽ của mô hình AI bằng kỹ thuật làm mịn nhãn — một kỹ thuật đã được chứng minh để cải thiện khả năng tổng quát hóa và giảm sự tự tin thái quá.
Làm mịn nhãn là một kỹ thuật điều chỉnh được sử dụng trong quá trình huấn luyện các mô hình học máy để ngăn mạng nơ-ron trở nên quá tự tin vào dự đoán của mình. Bằng cách điều chỉnh nhẹ các nhãn mục tiêu, phương pháp này khuyến khích mô hình tạo ra các phân phối xác suất ít cực đoan hơn, từ đó dẫn đến khả năng khái quát hóa tốt hơn và cải thiện hiệu suất trên dữ liệu chưa biết. Nó giúp giảm thiểu hiệu quả vấn đề thường gặp của hiện tượng quá khớp (overfitting ), khi mô hình ghi nhớ dữ liệu huấn luyện thay vì học các mẫu cơ bản cần thiết cho dự đoán chính xác trong các tình huống thực tế.
Trong các tác vụ học có giám sát tiêu chuẩn, chẳng hạn như phân loại hình ảnh, các mô hình thường được huấn luyện bằng các mục tiêu "cứng". Các mục tiêu này là các vectơ được mã hóa one-hot, trong đó lớp đúng được gán xác suất 1.0 (100%) và tất cả các lớp sai được gán 0.0. Mặc dù điều này có vẻ trực quan, nhưng nó buộc hàm mất mát —thường là Cross-Entropy Loss—phải đưa đầu ra của lớp logit đến vô cực để đạt được chính xác 1.0. Hành vi này dẫn đến một mô hình quá tự tin, ngay cả khi nó sai, và làm giảm khả năng thích ứng của nó với các đầu vào mới.
Làm mịn nhãn thay thế các mục tiêu cứng này bằng các mục tiêu "mềm". Thay vì gán 1.0 cho giá trị thực tế, kỹ thuật này gán một giá trị thấp hơn một chút, chẳng hạn như 0.9. Khối lượng xác suất còn lại (ví dụ: 0.1) được phân bổ đồng đều trên các lớp không chính xác. Sự thay đổi tinh tế này ngăn hàm kích hoạt , thường là Softmax , bị bão hòa. Để hiểu sâu hơn về mặt lý thuyết, bài báo nghiên cứu " Suy nghĩ lại về Kiến trúc Khởi đầu cho Thị giác Máy tính " cung cấp những hiểu biết cơ bản về cách cơ chế này ổn định quá trình huấn luyện.
Các khuôn khổ thị giác máy tính hiện đại giúp việc áp dụng kỹ thuật này trở nên dễ dàng. Khi sử dụng mô hình Ultralytics YOLO11 , bạn có thể kích hoạt làm mịn nhãn trực tiếp trong các đối số huấn luyện. Điều này đặc biệt hữu ích cho các tác vụ phân loại mà tập dữ liệu có thể chứa sự mơ hồ.
Ví dụ sau đây minh họa cách đào tạo mô hình bằng cách áp dụng làm mịn nhãn:
from ultralytics import YOLO
# Load the YOLO11 classification model
model = YOLO("yolo11n-cls.pt")
# Train on a dataset with label smoothing set to 0.1
# This distributes 10% of the probability mass to incorrect classes
model.train(data="mnist", epochs=5, label_smoothing=0.1)
Một trong những lợi thế chính của việc làm mịn nhãn là cải thiện hiệu chuẩn mô hình . Một mô hình được hiệu chuẩn tốt sẽ tạo ra các xác suất dự đoán về cơ bản phản ánh đúng xác suất chính xác thực sự. Ví dụ, nếu một mô hình dự đoán một lớp với độ tin cậy 70%, thì nó sẽ đúng 70% trong mọi trường hợp. Nhãn cứng thường dẫn đến các mô hình chưa được hiệu chuẩn, dự đoán với độ tin cậy 99% bất kể độ không chắc chắn thực tế.
Hơn nữa, làm mịn nhãn làm tăng độ bền vững trước dữ liệu nhiễu . Trong các tập dữ liệu lớn như ImageNet , một số nhãn có thể không chính xác hoặc mơ hồ. Bằng cách không buộc mô hình hội tụ về đúng 1.0, mạng sẽ dễ dàng bỏ qua các ví dụ bị gắn nhãn sai, ngăn mạng nơ-ron học sâu các mẫu sai.
Chiến lược chính quy hóa này được áp dụng rộng rãi trong nhiều lĩnh vực trí tuệ nhân tạo để tăng cường độ tin cậy.
Sẽ rất hữu ích khi phân biệt việc làm mịn nhãn với các kỹ thuật khác được sử dụng để cải thiện hiệu suất mô hình.
Bằng cách tích hợp tính năng làm mịn nhãn vào quy trình đào tạo, bạn đảm bảo rằng các mô hình của mình vẫn có khả năng thích ứng và hiệu chỉnh, điều này rất cần thiết để triển khai mô hình thành công trong môi trường sản xuất.