Thuật ngữ

Dữ liệu xác thực

Tối ưu hóa các mô hình học máy với dữ liệu xác thực để ngăn ngừa tình trạng quá khớp, điều chỉnh siêu tham số và đảm bảo hiệu suất mạnh mẽ trong thế giới thực.

Dữ liệu xác thực là một mẫu dữ liệu được giữ lại từ quá trình đào tạo, được sử dụng để cung cấp đánh giá khách quan về độ phù hợp của mô hình trong khi điều chỉnh các siêu tham số của nó. Vai trò chính của bộ xác thực là định hướng việc phát triển mô hình học máy (ML) bằng cách cung cấp đánh giá thường xuyên và độc lập về hiệu suất của mô hình. Vòng phản hồi này rất cần thiết để xây dựng các mô hình không chỉ hoạt động tốt trên dữ liệu đã có mà còn có khả năng khái quát hóa hiệu quả với dữ liệu mới, chưa từng có, một khái niệm cốt lõi để tạo ra các hệ thống Trí tuệ Nhân tạo (AI) mạnh mẽ.

Vai trò của dữ liệu xác thực

Mục đích chính của dữ liệu xác thực là ngăn ngừa hiện tượng quá khớp . Hiện tượng quá khớp xảy ra khi một mô hình học dữ liệu huấn luyện quá tốt, thu thập nhiễu và các chi tiết không áp dụng cho dữ liệu mới, do đó làm giảm hiệu suất của mô hình. Bằng cách kiểm tra mô hình với tập xác thực theo các khoảng thời gian đều đặn (ví dụ: sau mỗi kỷ nguyên ), các nhà phát triển có thể theo dõi lỗi khái quát hóa của mô hình . Nếu hiệu suất trên dữ liệu huấn luyện tiếp tục cải thiện trong khi hiệu suất trên dữ liệu xác thực trì trệ hoặc giảm sút, thì đó là dấu hiệu rõ ràng của hiện tượng quá khớp.

Quá trình đánh giá này rất quan trọng đối với việc tinh chỉnh siêu tham số . Siêu tham số là các thiết lập cấu hình bên ngoài mô hình, chẳng hạn như tốc độ học hoặc kích thước lô , không được học từ dữ liệu. Bộ xác thực cho phép thử nghiệm với các tổ hợp siêu tham số khác nhau để tìm ra bộ mang lại hiệu suất tốt nhất. Quá trình lặp lại này là một phần cốt lõi của việc lựa chọn và tối ưu hóa mô hình.

Dữ liệu xác thực so với dữ liệu đào tạo và thử nghiệm

Trong một dự án ML điển hình, tập dữ liệu được chia thành ba tập con, và việc hiểu rõ vai trò riêng biệt của chúng là điều cơ bản. Một cách tiếp cận phổ biến để phân chia dữ liệu là phân bổ 70% cho đào tạo, 15% cho xác thực và 15% cho kiểm thử.

  • Dữ liệu huấn luyện : Đây là phần dữ liệu lớn nhất, được sử dụng để huấn luyện mô hình. Mô hình học lặp lại các mẫu, đặc điểm và mối quan hệ từ tập dữ liệu này bằng cách điều chỉnh trọng số mô hình nội bộ.
  • Dữ liệu Xác thực: Tập con riêng biệt này được sử dụng để cung cấp đánh giá khách quan trong quá trình huấn luyện. Nó giúp tinh chỉnh các siêu tham số và đưa ra các quyết định quan trọng, chẳng hạn như thời điểm triển khai dừng sớm để ngăn ngừa hiện tượng quá khớp. Trong hệ sinh thái Ultralytics, việc đánh giá này được xử lý ở chế độ xác thực .
  • Dữ liệu Kiểm tra : Bộ dữ liệu này được giữ lại cho đến khi mô hình được huấn luyện và tinh chỉnh đầy đủ. Nó chỉ được sử dụng một lần để cung cấp đánh giá cuối cùng, khách quan về hiệu suất của mô hình. Hiệu suất của bộ dữ liệu kiểm tra cho biết mô hình dự kiến sẽ hoạt động như thế nào trong một kịch bản triển khai thực tế.

Việc duy trì sự tách biệt nghiêm ngặt, đặc biệt là giữa bộ xác thực và bộ kiểm tra, là rất quan trọng để đánh giá chính xác khả năng của mô hình và tránh sự đánh đổi giữa độ lệch và phương sai .

Ví dụ thực tế

  1. Phát hiện Đối tượng Thị giác Máy tính : Khi huấn luyện mô hình YOLO của Ultralytics để phát hiện đối tượng trong ảnh (ví dụ: sử dụng tập dữ liệu VisDrone ), một phần ảnh được gắn nhãn sẽ được dành riêng làm dữ liệu xác thực. Trong quá trình huấn luyện, mAP (Độ chính xác Trung bình) của mô hình được tính toán trên tập xác thực này sau mỗi epoch. MAP xác thực này giúp quyết định khi nào nên dừng huấn luyện hoặc bộ kỹ thuật tăng cường dữ liệu nào hoạt động tốt nhất, trước khi kiểm tra hiệu suất cuối cùng trên tập kiểm tra. Các chiến lược đánh giá mô hình hiệu quả phụ thuộc rất nhiều vào sự phân chia này.
  2. Phân loại văn bản trong Xử lý ngôn ngữ tự nhiên : Khi phát triển mô hình phân loại đánh giá của khách hàng thành tích cực hay tiêu cực ( phân tích cảm xúc ), một bộ xác thực được sử dụng để chọn kiến trúc tối ưu (ví dụ: LSTM so với Transformer ) hoặc điều chỉnh các siêu tham số như tỷ lệ bỏ học . Mô hình đạt điểm F1 hoặc độ chính xác cao nhất trên bộ xác thực sẽ được chọn để kiểm tra cuối cùng. Các nguồn như Bộ dữ liệu Hugging Face thường cung cấp các bộ dữ liệu được chia nhỏ trước cho mục đích này.

Xác thực chéo

Khi lượng dữ liệu khả dụng bị hạn chế, một kỹ thuật gọi là Cross-Validation (cụ thể là K-Fold Cross-Validation) thường được sử dụng. Trong kỹ thuật này, dữ liệu huấn luyện được chia thành K tập con (fold). Mô hình được huấn luyện K lần, mỗi lần sử dụng K-1 fold để huấn luyện và fold còn lại làm tập xác thực. Hiệu suất sau đó được tính trung bình trên tất cả K lần chạy. Kỹ thuật này cung cấp ước tính hiệu suất mô hình mạnh mẽ hơn và tận dụng tốt hơn dữ liệu hạn chế, như được giải thích trong các tài liệu như tài liệu scikit-learnhướng dẫn Ultralytics K-Fold Cross-Validation .

Tóm lại, dữ liệu xác thực là nền tảng để xây dựng các mô hình AI đáng tin cậy và hiệu suất cao với các nền tảng như PyTorchTensorFlow . Nó cho phép điều chỉnh siêu tham số, lựa chọn mô hình và ngăn ngừa hiện tượng quá khớp hiệu quả, đảm bảo các mô hình có khả năng khái quát hóa vượt xa dữ liệu mà chúng được đào tạo. Các nền tảng như Ultralytics HUB cung cấp các công cụ tích hợp để quản lý các tập dữ liệu này một cách hiệu quả.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard