Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Dữ liệu Validation

Tối ưu hóa các mô hình máy học bằng dữ liệu validation để ngăn ngừa overfitting, tinh chỉnh các siêu tham số và đảm bảo hiệu suất mạnh mẽ trong thế giới thực.

Dữ liệu xác thực đóng vai trò là bước trung gian quan trọng trong vòng đời phát triển học máy, đóng vai trò là đại diện cho dữ liệu chưa được biết đến trong quá trình huấn luyện mô hình. Đây là một tập hợp con riêng biệt của tập dữ liệu được sử dụng để cung cấp đánh giá khách quan về độ phù hợp của mô hình trong khi điều chỉnh cấu hình. Bằng cách kiểm tra định kỳ mô hình với dữ liệu xác thực, các nhà phát triển có thể đánh giá mức độ hệ thống đang học cách khái quát hóa thông tin mới tốt như thế nào, thay vì chỉ ghi nhớ các ví dụ huấn luyện. Vòng phản hồi này rất cần thiết để xác định sớm các vấn đề và tối ưu hóa mô hình để đạt hiệu suất thực tế mạnh mẽ.

Vai trò của xác thực trong điều chỉnh mô hình

Chức năng chính của dữ liệu xác thực là tạo điều kiện thuận lợi cho việc điều chỉnh siêu tham số . Không giống như các tham số nội bộ như trọng số mô hình , được học trực tiếp từ quá trình huấn luyện, các siêu tham số—như tốc độ học hoặc kích thước lô —phải được thiết lập thủ công hoặc tối ưu hóa thông qua thử nghiệm. Bộ xác thực cho phép các kỹ sư so sánh các kiến trúc và cấu hình mô hình khác nhau để chọn ra kiến trúc và cấu hình tốt nhất mà không cần tác động đến bộ kiểm tra cuối cùng.

Hơn nữa, việc theo dõi hiệu suất trên dữ liệu xác thực giúp ngăn ngừa hiện tượng quá khớp . Hiện tượng quá khớp xảy ra khi một mô hình học nhiễu và các chi tiết cụ thể của dữ liệu huấn luyện, gây ảnh hưởng đến hiệu suất của nó trên dữ liệu mới. Nếu lỗi huấn luyện giảm nhưng lỗi xác thực tăng, điều đó cho thấy mô hình đang mất khả năng khái quát hóa, báo hiệu sự cần thiết của các kỹ thuật can thiệp như dừng sớm .

Phân biệt giữa các phân chia dữ liệu

Để đảm bảo đánh giá đáng tin cậy, một tập dữ liệu hoàn chỉnh thường được chia thành ba phần riêng biệt. Hiểu được mục đích cụ thể của từng phần là rất quan trọng để quản lý dữ liệu hiệu quả.

  • Dữ liệu huấn luyện : Đây là tập con lớn nhất, được sử dụng để huấn luyện mạng nơ-ron. Mô hình lặp lại dữ liệu này, điều chỉnh các tham số để giảm thiểu hàm mất mát .
  • Dữ liệu Xác thực: Chỉ được sử dụng để đánh giá trong quá trình huấn luyện. Nó hướng dẫn việc lựa chọn điểm kiểm tra mô hình tốt nhất và giúp điều chỉnh các siêu tham số. Điều quan trọng là mô hình không bao giờ "học" trực tiếp từ dữ liệu này; nó chỉ sử dụng nó để đánh giá.
  • Dữ liệu thử nghiệm : Một tập dữ liệu được giữ kín hoàn toàn, chỉ được sử dụng sau khi mô hình cuối cùng được chọn. Nó cung cấp một thước đo cuối cùng, khách quan về độ chính xác và độ tin cậy trước khi triển khai mô hình .

Thực hiện thực tế với Ultralytics

Trong Ultralytics Hệ sinh thái, việc xác thực được tích hợp liền mạch vào quy trình làm việc. Khi xác định cấu hình YAML của tập dữ liệu, người dùng chỉ định đường dẫn cho hình ảnh huấn luyện và xác thực. Chế độ xác thực Ultralytics sau đó có thể được kích hoạt để tính toán các số liệu như Độ chính xác trung bình ( mAP ) trên tập xác thực.

Sau đây là cách xác thực mô hình YOLO11 được đào tạo trước bằng cách sử dụng Python :

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Validate the model on the 'coco8.yaml' dataset
# The 'data' argument specifies the dataset configuration containing the validation split
metrics = model.val(data="coco8.yaml")

# Display the Mean Average Precision (mAP) at IoU 50-95
print(f"Validation mAP50-95: {metrics.box.map}")

Các Ứng dụng Thực tế

Dữ liệu xác thực cho phép các nhà phát triển tinh chỉnh các mô hình cho các ngành công nghiệp cụ thể, nơi độ chính xác là tối quan trọng.

  • Nông nghiệp thông minh: Trong AI trong nông nghiệp , các mô hình được đào tạo để detect Bệnh cây trồng hoặc theo dõi độ chín. Một bộ dữ liệu xác thực bao gồm các hình ảnh được chụp trong nhiều điều kiện thời tiết khác nhau (nắng, u ám, mưa) đảm bảo mô hình hoạt động mạnh mẽ trước những thay đổi của môi trường. Bằng cách điều chỉnh các chiến lược tăng cường dữ liệu dựa trên phản hồi xác thực, nông dân sẽ có được những dự đoán đáng tin cậy bất kể dự báo như thế nào.
  • Chẩn đoán Chăm sóc Sức khỏe: Khi phát triển AI trong lĩnh vực chăm sóc sức khỏe cho các nhiệm vụ như phân tích ảnh chụp CT, việc tránh sai lệch là rất quan trọng. Dữ liệu xác thực giúp đảm bảo rằng một mô hình được đào tạo dựa trên dữ liệu từ một bệnh viện có thể tổng quát hóa tốt với các máy quét từ nhiều nhà sản xuất khác nhau. Việc kiểm tra nghiêm ngặt này giúp tránh những cạm bẫy đánh đổi giữa sai lệch và phương sai , đảm bảo an toàn cho bệnh nhân.

Kỹ thuật nâng cao: Xác thực chéo

Trong các tình huống dữ liệu khan hiếm, việc phân tách xác thực tĩnh có thể loại bỏ quá nhiều dữ liệu huấn luyện có giá trị. Trong những trường hợp này, các chuyên gia thường sử dụng Xác thực chéo , cụ thể là Xác thực chéo K-Fold. Kỹ thuật này bao gồm việc phân vùng dữ liệu thành các tập con 'K' và xoay vòng tập con nào đóng vai trò là dữ liệu xác thực. Điều này đảm bảo rằng mọi điểm dữ liệu đều được sử dụng cho cả huấn luyện và xác thực, cung cấp ước tính hiệu suất mô hình mạnh mẽ hơn về mặt thống kê, như được trình bày chi tiết trong tài liệu xác thực chéo scikit-learn .

Việc sử dụng dữ liệu xác thực đúng cách là nền tảng của các hoạt động học máy (MLOps) . Bằng cách tách biệt chặt chẽ các ví dụ xác thực khỏi quy trình đào tạo, các nhà phát triển đảm bảo rằng mô hình của họ không chỉ ghi nhớ các sự kiện mà còn thực sự học cách diễn giải thế giới trực quan.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay