Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Dữ liệu kiểm tra

Khám phá tầm quan trọng của dữ liệu kiểm thử trong AI, vai trò của nó trong việc đánh giá hiệu suất mô hình, phát hiện tình trạng quá khớp (overfitting) và đảm bảo độ tin cậy trong thế giới thực.

Trong học máy, Dữ liệu Kiểm tra là một phần riêng biệt, độc lập của tập dữ liệu được sử dụng để đánh giá cuối cùng một mô hình sau khi nó đã được huấn luyện và tinh chỉnh đầy đủ. Tập dữ liệu này hoạt động như một "bài kiểm tra cuối kỳ" cho mô hình, cung cấp đánh giá khách quan về hiệu suất của mô hình trên dữ liệu mới, chưa được biết đến. Nguyên tắc cốt lõi là mô hình không bao giờ được học từ hoặc bị ảnh hưởng bởi dữ liệu kiểm tra trong quá trình phát triển. Sự phân tách nghiêm ngặt này đảm bảo rằng các số liệu hiệu suất được tính toán trên tập kiểm tra, chẳng hạn như độ chính xác hoặc Độ chính xác trung bình ( mAP ) , phản ánh đúng khả năng khái quát hóa của mô hình sang các tình huống thực tế . Kiểm tra mô hình nghiêm ngặt là một bước quan trọng trước khi triển khai mô hình .

Vai trò của Dữ liệu Kiểm thử trong Vòng đời ML

Trong một dự án Học máy (ML) điển hình, dữ liệu được phân vùng cẩn thận để phục vụ các mục đích khác nhau. Việc hiểu rõ sự khác biệt giữa các phân vùng này là nền tảng để xây dựng các mô hình đáng tin cậy.

  • Dữ liệu huấn luyện : Đây là tập con dữ liệu lớn nhất, được sử dụng để huấn luyện mô hình. Mô hình học lặp lại các mẫu, đặc điểm và mối quan hệ bằng cách điều chỉnh trọng số mô hình nội bộ dựa trên các ví dụ trong tập huấn luyện. Việc tạo mô hình hiệu quả phụ thuộc vào dữ liệu huấn luyện chất lượng cao và việc tuân thủ các phương pháp hay nhất như trong hướng dẫn mẹo huấn luyện mô hình này.
  • Dữ liệu Xác thực : Đây là một tập dữ liệu riêng biệt được sử dụng trong quá trình huấn luyện. Mục đích của nó là cung cấp phản hồi về hiệu suất của mô hình trên dữ liệu chưa được biết đến, giúp điều chỉnh siêu tham số (ví dụ: điều chỉnh tốc độ học ) và ngăn ngừa hiện tượng quá khớp . Nó giống như một bài kiểm tra thực hành giúp định hướng chiến lược học tập. Việc đánh giá thường được thực hiện bằng một chế độ xác thực chuyên dụng.
  • Dữ liệu Kiểm tra: Bộ dữ liệu này được giữ hoàn toàn biệt lập cho đến khi hoàn tất quá trình huấn luyện và xác thực. Nó chỉ được sử dụng một lần để cung cấp báo cáo cuối cùng, khách quan về hiệu suất của mô hình. Việc sử dụng dữ liệu kiểm tra để thực hiện bất kỳ điều chỉnh nào khác cho mô hình sẽ làm mất hiệu lực kết quả, một lỗi đôi khi được gọi là "rò rỉ dữ liệu" hoặc "dạy để kiểm tra". Đánh giá cuối cùng này rất cần thiết để hiểu cách một mô hình, chẳng hạn như mô hình Ultralytics YOLO11 , sẽ hoạt động sau khi triển khai.

Sau khi đào tạo, bạn có thể sử dụng val chế độ phân chia thử nghiệm của bạn để tạo ra số liệu hiệu suất cuối cùng.

from ultralytics import YOLO

# Load a trained YOLO11 model
model = YOLO("yolo11n.pt")

# Evaluate the model's performance on the COCO8 test set.
# This command runs a final, unbiased evaluation on the 'test' split.
metrics = model.val(data="coco8.yaml", split="test")
print(metrics.box.map)  # Print mAP score

Mặc dù Bộ dữ liệu chuẩn có thể đóng vai trò là bộ kiểm tra, nhưng vai trò chính của nó là đóng vai trò là tiêu chuẩn công khai để so sánh các mô hình khác nhau, thường được sử dụng trong các cuộc thi học thuật như Thử thách Nhận dạng Hình ảnh Quy mô Lớn ImageNet (ILSVRC) . Bạn có thể xem ví dụ về điều này trong các trang so sánh mô hình .

Các Ứng dụng Thực tế

  1. Trí tuệ nhân tạo trong ô tô: Một nhà phát triển tạo ra một mô hình phát hiện vật thể cho xe tự hành bằng cách sử dụng hàng nghìn giờ quay phim lái xe để đào tạo và xác thực. Trước khi triển khai mô hình này vào đội xe, nó được đánh giá dựa trên một tập dữ liệu thử nghiệm. Bộ dữ liệu thử nghiệm này sẽ bao gồm các tình huống đầy thách thức, chưa từng được ghi nhận trước đây, chẳng hạn như lái xe ban đêm dưới trời mưa lớn, định hướng trong bão tuyết, hoặc phát hiện người đi bộ bị che khuất một phần bởi các vật thể khác. Hiệu suất của mô hình trên bộ dữ liệu thử nghiệm này, thường sử dụng dữ liệu từ các điểm chuẩn như nuScenes , sẽ quyết định liệu nó có đáp ứng các tiêu chuẩn an toàn và độ tin cậy nghiêm ngặt cần thiết cho AI trong các ứng dụng ô tô hay không .
  2. Phân tích hình ảnh y tế: Mô hình thị giác máy tính (CV) được đào tạo để detect Các dấu hiệu viêm phổi từ hình ảnh X-quang ngực lấy từ một bệnh viện. Để đảm bảo tính hữu ích về mặt lâm sàng, mô hình phải được thử nghiệm trên một tập dữ liệu hình ảnh từ một hệ thống bệnh viện khác. Dữ liệu thử nghiệm này sẽ bao gồm các hình ảnh được chụp bằng các thiết bị khác nhau, từ nhiều nhóm bệnh nhân khác nhau và được các bác sĩ X-quang khác nhau diễn giải. Việc đánh giá hiệu suất của mô hình trên bộ dữ liệu thử nghiệm bên ngoài này là rất quan trọng để đạt được sự chấp thuận theo quy định, chẳng hạn như từ FDA , và xác nhận tính hữu ích của nó đối với AI trong chăm sóc sức khỏe . Quá trình này giúp đảm bảo mô hình tránh được sai lệch dữ liệu và hoạt động đáng tin cậy trong các bối cảnh lâm sàng mới. Bạn có thể tìm thấy các tập dữ liệu hình ảnh y tế công cộng trong các nguồn như The Cancer Imaging Archive (TCIA) .

Thực hành tốt nhất để quản lý dữ liệu thử nghiệm

Để đảm bảo tính toàn vẹn của đánh giá, hãy cân nhắc những phương pháp hay nhất sau:

  • Lấy mẫu ngẫu nhiên: Khi tạo phân chia dữ liệu, hãy đảm bảo rằng tập kiểm tra là một mẫu đại diện cho toàn bộ không gian bài toán. Các công cụ như train_test_split của scikit-learn có thể giúp tự động hóa việc phân chia ngẫu nhiên này.
  • Ngăn ngừa rò rỉ dữ liệu: Đảm bảo không có sự chồng chéo giữa tập huấn luyện và tập kiểm tra. Ngay cả rò rỉ nhỏ, chẳng hạn như có cùng khung hình từ một video clip trong cả hai tập, cũng có thể làm tăng điểm hiệu suất một cách giả tạo.
  • Phân phối đại diện: Đối với các nhiệm vụ như phân loại , hãy xác minh rằng phân phối lớp trong bộ kiểm tra phản ánh phân phối trong thế giới thực mà bạn mong đợi gặp phải.
  • Chỉ số Đánh giá: Chọn các chỉ số phù hợp với mục tiêu kinh doanh của bạn. Ví dụ: trong ứng dụng bảo mật, độ thu hồi cao có thể quan trọng hơn độ chính xác để đảm bảo không bỏ sót bất kỳ mối đe dọa nào.

Bằng cách tuân thủ nghiêm ngặt các nguyên tắc này, bạn có thể tự tin sử dụng dữ liệu thử nghiệm để chứng nhận rằng các mô hình Ultralytics của bạn đã sẵn sàng cho môi trường sản xuất.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay