Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024
Bảng chú giải thuật ngữ

Dữ liệu Validation

Tối ưu hóa các mô hình máy học bằng dữ liệu validation để ngăn ngừa overfitting, tinh chỉnh các siêu tham số và đảm bảo hiệu suất mạnh mẽ trong thế giới thực.

Dữ liệu validation là một mẫu dữ liệu được giữ lại từ quá trình huấn luyện và được sử dụng để cung cấp đánh giá khách quan về độ phù hợp của mô hình trong khi điều chỉnh các siêu tham số của nó. Vai trò chính của tập dữ liệu validation là hướng dẫn sự phát triển của mô hình học máy (ML) bằng cách cung cấp đánh giá thường xuyên và độc lập về hiệu suất của nó. Vòng phản hồi này rất cần thiết để xây dựng các mô hình không chỉ hoạt động tốt trên dữ liệu đã thấy mà còn khái quát hóa hiệu quả sang dữ liệu mới, chưa từng thấy, một khái niệm cốt lõi để tạo ra các hệ thống Trí tuệ nhân tạo (AI) mạnh mẽ.

Vai trò của Dữ liệu Validation

Mục đích chính của dữ liệu xác thực là để ngăn chặn quá khớp. Quá khớp xảy ra khi một mô hình học dữ liệu huấn luyện quá tốt, nắm bắt các nhiễu và chi tiết không áp dụng cho dữ liệu mới, do đó làm tổn hại đến hiệu suất của nó. Bằng cách kiểm tra mô hình so với bộ xác thực theo các khoảng thời gian đều đặn (ví dụ: sau mỗi epoch), các nhà phát triển có thể theo dõi sai số khái quát hóa của nó. Nếu hiệu suất trên dữ liệu huấn luyện tiếp tục được cải thiện trong khi hiệu suất trên dữ liệu xác thực trì trệ hoặc giảm sút, thì đó là một dấu hiệu rõ ràng của quá khớp.

Quá trình đánh giá này rất quan trọng để điều chỉnh siêu tham số. Siêu tham số là các cài đặt cấu hình bên ngoài mô hình, chẳng hạn như tốc độ học hoặc kích thước batch, không được học từ dữ liệu. Tập validation cho phép thử nghiệm với các tổ hợp siêu tham số khác nhau để tìm ra bộ tạo ra hiệu suất tốt nhất. Quá trình lặp đi lặp lại này là một phần cốt lõi của việc lựa chọn mô hình và tối ưu hóa.

Dữ liệu Validation so với Dữ liệu Huấn luyện và Kiểm tra

Trong một dự án ML điển hình, tập dữ liệu được chia thành ba tập hợp con và việc hiểu rõ vai trò riêng biệt của chúng là điều cơ bản. Một cách tiếp cận phổ biến để chia tách dữ liệu là phân bổ 70% cho huấn luyện, 15% cho xác thực và 15% cho kiểm tra.

  • Dữ liệu huấn luyện: Đây là phần lớn nhất của dữ liệu, được sử dụng để dạy cho mô hình. Mô hình học lặp đi lặp lại các mẫu, đặc trưng và mối quan hệ từ tập dữ liệu này bằng cách điều chỉnh trọng số mô hình bên trong.
  • Dữ liệu xác thực: Tập hợp con riêng biệt này được sử dụng để cung cấp một đánh giá khách quan trong quá trình huấn luyện. Nó giúp điều chỉnh các siêu tham số và đưa ra các quyết định quan trọng, chẳng hạn như khi nào nên triển khai dừng sớm để ngăn ngừa tình trạng overfitting. Trong hệ sinh thái Ultralytics, đánh giá này được xử lý trong chế độ xác thực.
  • Dữ Liệu Kiểm Tra (Test Data): Tập dữ liệu này được giữ lại cho đến khi mô hình được huấn luyện và điều chỉnh hoàn toàn. Nó chỉ được sử dụng một lần để cung cấp đánh giá cuối cùng, khách quan về hiệu suất của mô hình. Hiệu suất của tập kiểm tra cho biết mô hình dự kiến sẽ hoạt động như thế nào trong tình huống triển khai thực tế.

Việc duy trì sự tách biệt nghiêm ngặt, đặc biệt là giữa tập validation và tập test, là rất quan trọng để đánh giá chính xác khả năng của mô hình và tránh đánh đổi giữa độ chệch và phương sai (bias-variance tradeoff).

Các ví dụ thực tế

  1. Thị giác máy tính (Computer Vision) Phát hiện đối tượng (Object Detection): Khi huấn luyện mô hình Ultralytics YOLO để phát hiện các đối tượng trong hình ảnh (ví dụ: sử dụng tập dữ liệu VisDrone), một phần của hình ảnh được gắn nhãn được dành riêng làm dữ liệu xác thực. Trong quá trình huấn luyện, mAP (độ chính xác trung bình - mean Average Precision) của mô hình được tính trên tập xác thực này sau mỗi epoch. mAP xác thực này giúp quyết định thời điểm dừng huấn luyện hoặc bộ kỹ thuật tăng cường dữ liệu (data augmentation) nào hoạt động tốt nhất, trước khi kiểm tra hiệu suất cuối cùng trên tập thử nghiệm. Các chiến lược đánh giá mô hình (model evaluation strategies) hiệu quả phụ thuộc rất nhiều vào sự phân chia này.
  2. Phân Loại Văn Bản Bằng Xử Lý Ngôn Ngữ Tự Nhiên (Natural Language Processing Text Classification): Trong việc phát triển một mô hình để phân loại đánh giá của khách hàng là tích cực hay tiêu cực (phân tích tình cảm), một tập hợp kiểm định được sử dụng để chọn kiến trúc tối ưu (ví dụ: LSTM so với Transformer) hoặc điều chỉnh các siêu tham số như tỷ lệ dropout. Mô hình đạt được F1-score hoặc độ chính xác cao nhất trên tập hợp kiểm định sẽ được chọn để thử nghiệm cuối cùng. Các tài nguyên như Hugging Face Datasets thường cung cấp các tập dữ liệu được chia sẵn cho mục đích này.

Cross-Validation

Khi lượng dữ liệu có sẵn bị hạn chế, một kỹ thuật gọi là Kiểm định chéo (cụ thể là Kiểm định chéo K-Fold) thường được sử dụng. Ở đây, dữ liệu huấn luyện được chia thành 'K' tập hợp con (folds). Mô hình được huấn luyện K lần, mỗi lần sử dụng K-1 folds để huấn luyện và fold còn lại làm tập hợp xác thực. Sau đó, hiệu suất được tính trung bình trên tất cả K lần chạy. Điều này cung cấp một ước tính mạnh mẽ hơn về hiệu suất của mô hình và sử dụng tốt hơn dữ liệu hạn chế, như được giải thích trong các tài nguyên như tài liệu scikit-learnhướng dẫn Kiểm định chéo K-Fold của Ultralytics.

Tóm lại, dữ liệu validation là nền tảng của việc xây dựng các mô hình AI đáng tin cậy và hiệu suất cao với các framework như PyTorchTensorFlow. Nó cho phép điều chỉnh siêu tham số hiệu quả, lựa chọn mô hình và ngăn ngừa overfitting, đảm bảo rằng các mô hình khái quát hóa tốt hơn so với dữ liệu mà chúng được huấn luyện. Các nền tảng như Ultralytics HUB cung cấp các công cụ tích hợp để quản lý các tập dữ liệu này một cách hiệu quả.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay
Đã sao chép liên kết vào clipboard