Dữ liệu kiểm tra
Khám phá tầm quan trọng của dữ liệu kiểm thử trong AI, vai trò của nó trong việc đánh giá hiệu suất mô hình, phát hiện tình trạng quá khớp (overfitting) và đảm bảo độ tin cậy trong thế giới thực.
Trong học máy, Dữ liệu Kiểm tra (Test Data) là một phần riêng biệt, độc lập của bộ dữ liệu được sử dụng để đánh giá cuối cùng một mô hình sau khi nó đã được huấn luyện và điều chỉnh đầy đủ. Bộ dữ liệu này hoạt động như một "bài kiểm tra cuối kỳ" cho mô hình, cung cấp một đánh giá khách quan về hiệu suất của nó trên dữ liệu mới, chưa từng thấy. Nguyên tắc cốt lõi là mô hình không bao giờ được học hỏi hoặc bị ảnh hưởng bởi dữ liệu kiểm tra trong quá trình phát triển của nó. Sự tách biệt nghiêm ngặt này đảm bảo rằng các số liệu hiệu suất được tính toán trên bộ kiểm tra, chẳng hạn như độ chính xác hoặc độ chính xác trung bình (mAP), là một phản ánh thực sự về khả năng khái quát hóa của mô hình đối với các tình huống thực tế. Kiểm tra mô hình nghiêm ngặt là một bước quan trọng trước khi triển khai mô hình.
Vai trò của Dữ liệu Kiểm thử trong Vòng đời ML
Trong một dự án Học Máy (ML) điển hình, dữ liệu được phân vùng cẩn thận để phục vụ các mục đích khác nhau. Hiểu được sự khác biệt giữa các phân vùng này là điều cơ bản.
- Dữ liệu huấn luyện: Đây là tập hợp con lớn nhất của dữ liệu, được sử dụng để huấn luyện mô hình. Mô hình học lặp đi lặp lại các mẫu, đặc trưng và mối quan hệ bằng cách điều chỉnh trọng số bên trong dựa trên các ví dụ trong tập huấn luyện. Việc tạo mô hình hiệu quả dựa trên dữ liệu huấn luyện chất lượng cao và tuân theo các phương pháp tốt nhất như trong hướng dẫn các mẹo huấn luyện mô hình này.
- Dữ liệu Kiểm định (Validation Data): Đây là một tập dữ liệu riêng biệt được sử dụng trong quá trình huấn luyện. Mục đích của nó là cung cấp phản hồi về hiệu suất của mô hình trên dữ liệu chưa thấy, điều này giúp điều chỉnh siêu tham số (hyperparameter tuning) (ví dụ: điều chỉnh tốc độ học (learning rate)) và ngăn ngừa quá khớp (overfitting). Nó giống như một bài kiểm tra thực hành giúp định hướng chiến lược học tập. Việc đánh giá thường được thực hiện bằng cách sử dụng chế độ kiểm định (validation mode) chuyên dụng.
- Dữ liệu kiểm tra: Tập dữ liệu này được giữ hoàn toàn tách biệt cho đến khi tất cả quá trình huấn luyện và xác thực hoàn tất. Nó chỉ được sử dụng một lần để cung cấp báo cáo cuối cùng, khách quan về hiệu suất của mô hình. Việc sử dụng dữ liệu kiểm tra để thực hiện bất kỳ điều chỉnh nào khác cho mô hình sẽ làm mất hiệu lực kết quả, một sai lầm đôi khi được gọi là "rò rỉ dữ liệu" hoặc "dạy để kiểm tra". Đánh giá cuối cùng này rất cần thiết để hiểu cách một mô hình, như mô hình Ultralytics YOLO, sẽ hoạt động sau khi triển khai. Các công cụ như Ultralytics HUB có thể giúp quản lý các tập dữ liệu này trong suốt vòng đời dự án.
Mặc dù Benchmark Dataset có thể đóng vai trò là bộ kiểm tra, vai trò chính của nó là hoạt động như một tiêu chuẩn công khai để so sánh các mô hình khác nhau, thường được sử dụng trong các thử thách học thuật như ImageNet Large Scale Visual Recognition Challenge (ILSVRC). Bạn có thể xem các ví dụ về điều này trong các trang so sánh mô hình.
Các Ứng dụng Thực tế
- AI trong ngành ô tô: Một nhà phát triển tạo ra một mô hình phát hiện đối tượng cho một xe tự hành bằng cách sử dụng hàng nghìn giờ cảnh quay lái xe để huấn luyện và xác thực. Trước khi triển khai mô hình này vào một đội xe, nó được đánh giá dựa trên một tập dữ liệu thử nghiệm. Tập hợp thử nghiệm này sẽ bao gồm các kịch bản đầy thách thức, chưa từng thấy trước đây, chẳng hạn như lái xe vào ban đêm trong mưa lớn, điều hướng qua một trận bão tuyết hoặc phát hiện người đi bộ bị các vật thể khác che khuất một phần. Hiệu suất của mô hình trên bộ thử nghiệm này, thường sử dụng dữ liệu từ các điểm chuẩn như nuScenes, xác định xem nó có đáp ứng các tiêu chuẩn an toàn và độ tin cậy nghiêm ngặt cần thiết cho các ứng dụng AI trong ô tô hay không.
- Phân tích ảnh y tế: Một mô hình thị giác máy tính (CV) được đào tạo để phát hiện các dấu hiệu của bệnh viêm phổi từ hình ảnh X-quang ngực lấy từ một bệnh viện. Để đảm bảo nó hữu ích về mặt lâm sàng, mô hình phải được kiểm tra trên một tập dữ liệu hình ảnh từ một hệ thống bệnh viện khác. Dữ liệu kiểm tra này sẽ bao gồm hình ảnh được chụp bằng các thiết bị khác nhau, từ một nhóm bệnh nhân đa dạng và được diễn giải bởi các bác sĩ радиologist khác nhau. Đánh giá hiệu suất của mô hình trên bộ kiểm tra bên ngoài này là rất quan trọng để đạt được sự chấp thuận theo quy định, chẳng hạn như từ FDA, và xác nhận tính hữu ích của nó đối với AI trong chăm sóc sức khỏe. Quá trình này giúp đảm bảo mô hình tránh được thiên kiến tập dữ liệu và hoạt động đáng tin cậy trong các môi trường lâm sàng mới.