Test Data

Khám phá vai trò quan trọng của dữ liệu kiểm thử (test data) trong machine learning. Tìm hiểu cách đánh giá hiệu suất của Ultralytics YOLO26 bằng các tập dữ liệu không thiên vị để đảm bảo độ chính xác trong thế giới thực.

Dữ liệu kiểm thử (Test Data) là một tập hợp con cụ thể của tập dữ liệu lớn hơn, được dành riêng hoàn toàn để đánh giá hiệu suất cuối cùng của một model học máy (ML). Không giống như dữ liệu được sử dụng trong các giai đoạn học tập trước đó, dữ liệu kiểm thử hoàn toàn "chưa được thấy" bởi thuật toán cho đến cuối chu kỳ phát triển. Sự cô lập này rất quan trọng vì nó cung cấp đánh giá khách quan về khả năng tổng quát hóa của một model thị giác máy tính (CV) hoặc hệ thống AI khác đối với các đầu vào mới trong thực tế. Bằng cách mô phỏng môi trường sản xuất, dữ liệu kiểm thử giúp các nhà phát triển xác minh rằng model của họ đã thực sự học được các mô hình cơ bản thay vì chỉ ghi nhớ các ví dụ đào tạo.

Link to this sectionVai trò của dữ liệu kiểm thử trong vòng đời ML#

Trong quy trình học máy tiêu chuẩn, dữ liệu thường được chia thành ba danh mục riêng biệt, mỗi danh mục phục vụ một mục đích duy nhất. Việc hiểu sự khác biệt giữa các phần chia này là rất quan trọng để xây dựng các hệ thống trí tuệ nhân tạo (AI) mạnh mẽ.

Dữ liệu đào tạo (Training Data): Đây là phần lớn nhất của tập dữ liệu, được sử dụng để dạy model. Thuật toán điều chỉnh các tham số nội bộ, hay trọng số (weights), để giảm thiểu sai số trên tập ví dụ cụ thể này.
Dữ liệu xác thực (Validation Data): Tập hợp con này được sử dụng thường xuyên trong quá trình đào tạo để điều chỉnh siêu tham số (hyperparameters) và định hướng các quyết định về kiến trúc. Nó đóng vai trò là bước kiểm tra tạm thời để ngăn chặn quá khớp (overfitting), tình trạng model hoạt động tốt trên dữ liệu đào tạo nhưng thất bại trên dữ liệu mới.
Dữ liệu kiểm thử (Test Data): Đây là "bài kiểm tra" cuối cùng cho model. Nó không bao giờ được sử dụng để cập nhật trọng số hoặc tinh chỉnh các thiết lập. Việc đánh giá trên dữ liệu kiểm thử tạo ra các chỉ số hiệu suất xác thực, chẳng hạn như độ chính xác (accuracy), độ thu hồi (recall), và Mean Average Precision (mAP), mà các bên liên quan sử dụng để quyết định xem một model đã sẵn sàng cho việc triển khai (model deployment) hay chưa.

Việc quản lý đúng cách các phân đoạn này thường được hỗ trợ bởi các công cụ như Ultralytics Platform, cho phép tự động sắp xếp các tập dữ liệu đã tải lên thành các danh mục thiết yếu này để đảm bảo việc đánh giá model (model evaluation) được thực hiện nghiêm ngặt.

Link to this sectionTầm quan trọng của đánh giá khách quan#

Giá trị chính của dữ liệu kiểm thử nằm ở khả năng phát hiện độ chệch dữ liệu (dataset bias) và các vấn đề về phương sai. Nếu một model đạt độ chính xác 99% trên dữ liệu đào tạo nhưng chỉ đạt 60% trên dữ liệu kiểm thử, điều đó cho thấy phương sai cao (quá khớp). Ngược lại, hiệu suất kém trên cả hai cho thấy tình trạng chưa khớp (underfitting).

Using a designated test set adheres to scientific principles of reproducibility and objectivity. Without a pristine test set, developers risk "teaching to the test," effectively leaking information from the evaluation phase back into the training phase—a phenomenon known as data leakage. This results in overly optimistic performance estimates that crumble when the model faces real-world data.

Link to this sectionCác ứng dụng trong thực tế#

Dữ liệu kiểm thử là yếu tố thiết yếu trong mọi ngành sử dụng AI để đảm bảo tính an toàn và độ tin cậy trước khi các hệ thống được đưa vào vận hành thực tế.

Xe tự lái: Trong quá trình phát triển xe tự lái, dữ liệu đào tạo có thể bao gồm hàng triệu dặm đường cao tốc trong điều kiện thời tiết quang đãng. Tuy nhiên, dữ liệu kiểm thử phải bao gồm các kịch bản hiếm gặp và đầy thách thức—như tuyết rơi dày đặc, chướng ngại vật bất ngờ hoặc biển báo giao thông gây nhầm lẫn—mà chiếc xe chưa bao giờ "thấy" trong quá trình đào tạo. Điều này đảm bảo hệ thống phát hiện đối tượng (object detection) có thể phản ứng an toàn trong các môi trường khó dự đoán.
Chẩn đoán y tế: Khi xây dựng model để phát hiện khối u trong hình ảnh y tế, tập dữ liệu đào tạo có thể lấy từ cơ sở dữ liệu của một bệnh viện cụ thể. Để xác minh model mạnh mẽ và an toàn cho mục đích sử dụng chung, dữ liệu kiểm thử lý tưởng nên bao gồm các bản quét từ các bệnh viện khác nhau, được chụp bằng các máy móc khác nhau và đại diện cho nhân khẩu học bệnh nhân đa dạng. Việc xác thực bên ngoài này khẳng định AI không bị thiên kiến đối với một loại thiết bị hoặc quần thể bệnh nhân cụ thể.

Link to this sectionĐánh giá hiệu suất bằng Code#

Sử dụng gói thư viện ultralytics, bạn có thể dễ dàng đánh giá hiệu suất của model trên một tập dữ liệu tách biệt. Mặc dù chế độ val thường được dùng để xác thực trong quá trình đào tạo, nó cũng có thể được cấu hình để chạy trên một tập kiểm thử cụ thể được xác định trong cấu hình YAML tập dữ liệu (dataset YAML configuration) của bạn.

Here is how to evaluate a pre-trained YOLO26 model to obtain metrics like mAP50-95:

from ultralytics import YOLO

# Load a pre-trained YOLO26 model
model = YOLO("yolo26n.pt")

# Evaluate the model's performance on the validation set
# (Note: In a strict testing workflow, you would point 'data'
# to a YAML that defines a specific 'test' split and use split='test')
metrics = model.val(data="coco8.yaml")

# Print a specific metric, e.g., mAP at 50-95% IoU
print(f"Mean Average Precision (mAP50-95): {metrics.box.map}")

Quy trình này tạo ra các chỉ số toàn diện, cho phép các nhà phát triển so sánh khách quan các kiến trúc khác nhau, chẳng hạn như YOLO26 vs YOLO11, và đảm bảo giải pháp được chọn đáp ứng các mục tiêu dự án đã xác định. Kiểm thử nghiêm ngặt là bước kiểm soát cuối cùng để đảm bảo các tiêu chuẩn an toàn AI (AI safety) cao được đáp ứng.

Explore solutions

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Test Data

Link to this sectionVai trò của dữ liệu kiểm thử trong vòng đời ML#

Link to this sectionTầm quan trọng của đánh giá khách quan#

Link to this sectionCác ứng dụng trong thực tế#

Link to this sectionĐánh giá hiệu suất bằng Code#

Explore solutions

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

Hãy cùng nhau xây dựng tương lai của AI!