Dữ liệu thử nghiệm
Khám phá tầm quan trọng của dữ liệu thử nghiệm trong AI, vai trò của nó trong việc đánh giá hiệu suất mô hình, phát hiện tình trạng quá khớp và đảm bảo độ tin cậy trong thế giới thực.
Trong học máy, Dữ liệu Kiểm tra là một phần riêng biệt, độc lập của tập dữ liệu, được sử dụng để đánh giá cuối cùng một mô hình sau khi nó đã được huấn luyện và tinh chỉnh đầy đủ. Tập dữ liệu này đóng vai trò như một "bài kiểm tra cuối kỳ" cho mô hình, cung cấp đánh giá khách quan về hiệu suất của mô hình trên dữ liệu mới, chưa được biết đến. Nguyên tắc cốt lõi là mô hình không bao giờ được học từ hoặc bị ảnh hưởng bởi dữ liệu kiểm tra trong quá trình phát triển. Sự phân tách nghiêm ngặt này đảm bảo rằng các số liệu hiệu suất được tính toán trên tập kiểm tra, chẳng hạn như độ chính xác hoặc Độ chính xác trung bình (mAP) , phản ánh đúng khả năng khái quát hóa của mô hình sang các tình huống thực tế. Kiểm tra mô hình nghiêm ngặt là một bước quan trọng trước khi triển khai mô hình .
Vai trò của dữ liệu thử nghiệm trong vòng đời ML
Trong một dự án Học máy (ML) điển hình, dữ liệu được phân vùng cẩn thận để phục vụ các mục đích khác nhau. Việc hiểu rõ sự khác biệt giữa các phân vùng này là điều cơ bản.
- Dữ liệu huấn luyện : Đây là tập con dữ liệu lớn nhất, được sử dụng để huấn luyện mô hình. Mô hình học lặp lại các mẫu, đặc điểm và mối quan hệ bằng cách điều chỉnh trọng số nội bộ dựa trên các ví dụ trong tập huấn luyện. Việc tạo mô hình hiệu quả phụ thuộc vào dữ liệu huấn luyện chất lượng cao và việc tuân thủ các phương pháp hay nhất như trong hướng dẫn mẹo huấn luyện mô hình này.
- Dữ liệu Xác thực : Đây là một tập dữ liệu riêng biệt được sử dụng trong quá trình huấn luyện. Mục đích của nó là cung cấp phản hồi về hiệu suất của mô hình trên dữ liệu chưa được biết đến, giúp điều chỉnh siêu tham số (ví dụ: điều chỉnh tốc độ học ) và ngăn ngừa hiện tượng quá khớp . Nó giống như một bài kiểm tra thực hành giúp định hướng chiến lược học tập. Việc đánh giá thường được thực hiện bằng một chế độ xác thực chuyên dụng.
- Dữ liệu Kiểm thử: Bộ dữ liệu này được giữ hoàn toàn biệt lập cho đến khi hoàn tất quá trình huấn luyện và xác thực. Nó chỉ được sử dụng một lần để cung cấp báo cáo cuối cùng, khách quan về hiệu suất của mô hình. Việc sử dụng dữ liệu kiểm thử để thực hiện bất kỳ điều chỉnh nào khác cho mô hình sẽ làm mất hiệu lực kết quả, một lỗi đôi khi được gọi là "rò rỉ dữ liệu" hoặc "dạy để kiểm thử". Đánh giá cuối cùng này rất cần thiết để hiểu cách một mô hình, chẳng hạn như mô hình Ultralytics YOLO , sẽ hoạt động sau khi triển khai. Các công cụ như Ultralytics HUB có thể giúp quản lý các bộ dữ liệu này trong suốt vòng đời dự án.
Mặc dù Bộ dữ liệu chuẩn có thể đóng vai trò là bộ kiểm tra, nhưng vai trò chính của nó là đóng vai trò là tiêu chuẩn công khai để so sánh các mô hình khác nhau, thường được sử dụng trong các cuộc thi học thuật như Thử thách Nhận dạng Hình ảnh Quy mô Lớn ImageNet (ILSVRC) . Bạn có thể xem ví dụ về điều này trong các trang so sánh mô hình .
Ứng dụng trong thế giới thực
- Trí tuệ nhân tạo trong ô tô: Một nhà phát triển tạo ra một mô hình phát hiện vật thể cho xe tự hành bằng cách sử dụng hàng nghìn giờ quay phim lái xe để đào tạo và xác thực. Trước khi triển khai mô hình này vào đội xe, nó được đánh giá dựa trên một tập dữ liệu thử nghiệm. Bộ dữ liệu thử nghiệm này sẽ bao gồm các tình huống đầy thách thức, chưa từng được ghi nhận trước đây, chẳng hạn như lái xe ban đêm dưới trời mưa lớn, định hướng trong bão tuyết, hoặc phát hiện người đi bộ bị che khuất một phần bởi các vật thể khác. Hiệu suất của mô hình trên bộ dữ liệu thử nghiệm này, thường sử dụng dữ liệu từ các điểm chuẩn như nuScenes , sẽ quyết định liệu nó có đáp ứng các tiêu chuẩn an toàn và độ tin cậy nghiêm ngặt cần thiết cho AI trong các ứng dụng ô tô hay không .
- Phân tích hình ảnh y tế: Một mô hình thị giác máy tính (CV) được đào tạo để phát hiện các dấu hiệu viêm phổi từ hình ảnh X-quang ngực lấy từ một bệnh viện. Để đảm bảo tính hữu ích lâm sàng, mô hình phải được thử nghiệm trên một tập dữ liệu hình ảnh từ một hệ thống bệnh viện khác. Dữ liệu thử nghiệm này sẽ bao gồm các hình ảnh được chụp bằng các thiết bị khác nhau, từ nhiều nhóm bệnh nhân khác nhau và được diễn giải bởi các bác sĩ X-quang khác nhau. Việc đánh giá hiệu suất của mô hình trên bộ dữ liệu thử nghiệm bên ngoài này là rất quan trọng để đạt được sự chấp thuận theo quy định, chẳng hạn như từ FDA , và xác nhận tính hữu ích của nó đối với AI trong chăm sóc sức khỏe . Quá trình này giúp đảm bảo mô hình tránh được sai lệch dữ liệu và hoạt động đáng tin cậy trong các bối cảnh lâm sàng mới.