Tối ưu hóa các mô hình máy học bằng dữ liệu validation để ngăn ngừa overfitting, tinh chỉnh các siêu tham số và đảm bảo hiệu suất mạnh mẽ trong thế giới thực.
Dữ liệu xác thực đóng vai trò là bước trung gian quan trọng trong vòng đời phát triển học máy, đóng vai trò là đại diện cho dữ liệu chưa được biết đến trong quá trình huấn luyện mô hình. Đây là một tập hợp con riêng biệt của tập dữ liệu được sử dụng để cung cấp đánh giá khách quan về độ phù hợp của mô hình trong khi điều chỉnh cấu hình. Bằng cách kiểm tra định kỳ mô hình với dữ liệu xác thực, các nhà phát triển có thể đánh giá mức độ hệ thống đang học cách khái quát hóa thông tin mới tốt như thế nào, thay vì chỉ ghi nhớ các ví dụ huấn luyện. Vòng phản hồi này rất cần thiết để xác định sớm các vấn đề và tối ưu hóa mô hình để đạt hiệu suất thực tế mạnh mẽ.
Chức năng chính của dữ liệu xác thực là tạo điều kiện thuận lợi cho việc điều chỉnh siêu tham số . Không giống như các tham số nội bộ như trọng số mô hình , được học trực tiếp từ quá trình huấn luyện, các siêu tham số—như tốc độ học hoặc kích thước lô —phải được thiết lập thủ công hoặc tối ưu hóa thông qua thử nghiệm. Bộ xác thực cho phép các kỹ sư so sánh các kiến trúc và cấu hình mô hình khác nhau để chọn ra kiến trúc và cấu hình tốt nhất mà không cần tác động đến bộ kiểm tra cuối cùng.
Hơn nữa, việc theo dõi hiệu suất trên dữ liệu xác thực giúp ngăn ngừa hiện tượng quá khớp . Hiện tượng quá khớp xảy ra khi một mô hình học nhiễu và các chi tiết cụ thể của dữ liệu huấn luyện, gây ảnh hưởng đến hiệu suất của nó trên dữ liệu mới. Nếu lỗi huấn luyện giảm nhưng lỗi xác thực tăng, điều đó cho thấy mô hình đang mất khả năng khái quát hóa, báo hiệu sự cần thiết của các kỹ thuật can thiệp như dừng sớm .
Để đảm bảo đánh giá đáng tin cậy, một tập dữ liệu hoàn chỉnh thường được chia thành ba phần riêng biệt. Hiểu được mục đích cụ thể của từng phần là rất quan trọng để quản lý dữ liệu hiệu quả.
Trong Ultralytics Hệ sinh thái, việc xác thực được tích hợp liền mạch vào quy trình làm việc. Khi xác định cấu hình YAML của tập dữ liệu, người dùng chỉ định đường dẫn cho hình ảnh huấn luyện và xác thực. Chế độ xác thực Ultralytics sau đó có thể được kích hoạt để tính toán các số liệu như Độ chính xác trung bình ( mAP ) trên tập xác thực.
Sau đây là cách xác thực mô hình YOLO11 được đào tạo trước bằng cách sử dụng Python :
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Validate the model on the 'coco8.yaml' dataset
# The 'data' argument specifies the dataset configuration containing the validation split
metrics = model.val(data="coco8.yaml")
# Display the Mean Average Precision (mAP) at IoU 50-95
print(f"Validation mAP50-95: {metrics.box.map}")
Dữ liệu xác thực cho phép các nhà phát triển tinh chỉnh các mô hình cho các ngành công nghiệp cụ thể, nơi độ chính xác là tối quan trọng.
Trong các tình huống dữ liệu khan hiếm, việc phân tách xác thực tĩnh có thể loại bỏ quá nhiều dữ liệu huấn luyện có giá trị. Trong những trường hợp này, các chuyên gia thường sử dụng Xác thực chéo , cụ thể là Xác thực chéo K-Fold. Kỹ thuật này bao gồm việc phân vùng dữ liệu thành các tập con 'K' và xoay vòng tập con nào đóng vai trò là dữ liệu xác thực. Điều này đảm bảo rằng mọi điểm dữ liệu đều được sử dụng cho cả huấn luyện và xác thực, cung cấp ước tính hiệu suất mô hình mạnh mẽ hơn về mặt thống kê, như được trình bày chi tiết trong tài liệu xác thực chéo scikit-learn .
Việc sử dụng dữ liệu xác thực đúng cách là nền tảng của các hoạt động học máy (MLOps) . Bằng cách tách biệt chặt chẽ các ví dụ xác thực khỏi quy trình đào tạo, các nhà phát triển đảm bảo rằng mô hình của họ không chỉ ghi nhớ các sự kiện mà còn thực sự học cách diễn giải thế giới trực quan.