Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Bộ dữ liệu chuẩn

Khám phá cách các bộ dữ liệu chuẩn thúc đẩy sự đổi mới AI bằng cách cho phép đánh giá mô hình công bằng, khả năng tái tạo và tiến bộ trong máy học.

Bộ dữ liệu chuẩn là một tập hợp dữ liệu được chuẩn hóa, chất lượng cao, được sử dụng để đánh giá hiệu suất của các mô hình học máy (ML) một cách công bằng và có thể tái tạo. Không giống như dữ liệu riêng tư được sử dụng cho thử nghiệm nội bộ, bộ dữ liệu chuẩn đóng vai trò là "thước đo" công khai cho toàn bộ cộng đồng nghiên cứu. Bằng cách thử nghiệm các thuật toán khác nhau trên cùng một dữ liệu đầu vào và sử dụng các chỉ số đánh giá giống hệt nhau, các nhà phát triển có thể xác định một cách khách quan mô hình nào mang lại độ chính xác, tốc độ hoặc hiệu quả vượt trội. Những bộ dữ liệu này đóng vai trò nền tảng trong việc theo dõi tiến độ trong các lĩnh vực như thị giác máy tính (CV) và xử lý ngôn ngữ tự nhiên.

Tầm quan trọng của việc chuẩn hóa

Trong bối cảnh trí tuệ nhân tạo (AI) đang phát triển nhanh chóng, việc khẳng định một mô hình mới "nhanh hơn" hoặc "chính xác hơn" sẽ trở nên vô nghĩa nếu không có một điểm tham chiếu chung. Các tập dữ liệu chuẩn cung cấp nền tảng chung này. Chúng thường được tuyển chọn để đại diện cho những thách thức cụ thể, chẳng hạn như phát hiện các vật thể nhỏ hoặc xử lý điều kiện ánh sáng kém. Các thử thách phổ biến, chẳng hạn như Thử thách Nhận dạng Hình ảnh Quy mô Lớn ImageNet (ILSVRC) , dựa vào các tập dữ liệu này để thúc đẩy cạnh tranh lành mạnh. Việc chuẩn hóa này đảm bảo rằng những cải tiến trong kiến trúc mô hình là những tiến bộ thực sự chứ không phải là kết quả của việc thử nghiệm trên dữ liệu dễ hơn, không chuẩn.

Phân biệt Benchmark với các tập dữ liệu khác

Điều quan trọng là phải phân biệt các tập dữ liệu chuẩn với các phần dữ liệu được sử dụng trong vòng đời phát triển tiêu chuẩn:

  • Dữ liệu huấn luyện : Đây là tài liệu được sử dụng để huấn luyện mô hình. Thuật toán điều chỉnh các tham số nội bộ dựa trên dữ liệu này.
  • Dữ liệu Xác thực : Một tập hợp con được sử dụng trong quá trình huấn luyện để điều chỉnh siêu tham số và ngăn ngừa hiện tượng quá khớp . Nó đóng vai trò kiểm tra sơ bộ nhưng không đại diện cho điểm số cuối cùng.
  • Dữ liệu thử nghiệm : Bộ dữ liệu nội bộ được sử dụng để kiểm tra hiệu suất trước khi phát hành.
  • Bộ dữ liệu chuẩn: Một bộ dữ liệu kiểm tra bên ngoài được chấp nhận rộng rãi. Mặc dù chuẩn đóng vai trò là dữ liệu kiểm tra, nhưng điểm khác biệt chính của nó là vai trò là một tiêu chuẩn công khai để so sánh mô hình .

Các Ứng dụng Thực tế

Bộ dữ liệu chuẩn xác định thành công trong nhiều ngành công nghiệp khác nhau bằng cách thiết lập các tiêu chuẩn an toàn và độ tin cậy nghiêm ngặt.

Phát hiện đối tượng trong tầm nhìn mục đích chung

Ví dụ nổi bật nhất trong phát hiện đối tượng là tập dữ liệu COCO (Đối tượng chung trong ngữ cảnh) . Khi Ultralytics phát hành một kiến trúc mới như YOLO11 , hiệu suất của nó được đánh giá nghiêm ngặt so với COCO để xác minh những cải thiện về Độ chính xác trung bình ( mAP ) . Điều này cho phép các nhà nghiên cứu thấy chính xác cách YOLO11 so sánh với các phiên bản trước hoặc các mô hình tiên tiến khác trong việc phát hiện các vật thể hàng ngày như con người, xe đạp và động vật.

An toàn lái xe tự động

Trong ngành công nghiệp ô tô, an toàn là yếu tố tối quan trọng. Các nhà phát triển xe tự hành sử dụng các tiêu chuẩn chuyên biệt như KITTI Vision Benchmark Suite hoặc Waymo Open Dataset . Các bộ dữ liệu này chứa các bản ghi phức tạp, được chú thích về môi trường lái xe trong đô thị, bao gồm người đi bộ, người đi xe đạp và biển báo giao thông. Bằng cách đánh giá các hệ thống nhận thức dựa trên các tiêu chuẩn này, các kỹ sư có thể định lượng độ tin cậy của hệ thống trong các tình huống giao thông thực tế, đảm bảo AI phản ứng chính xác với các mối nguy hiểm động.

Đánh giá chuẩn với Ultralytics

Ultralytics cung cấp các công cụ tích hợp để dễ dàng đánh giá chuẩn các mô hình trên nhiều định dạng xuất khác nhau, chẳng hạn như ONNX hoặc TensorRT . Điều này giúp người dùng xác định sự cân bằng tốt nhất giữa độ trễ suy luận và độ chính xác cho phần cứng cụ thể của họ.

Ví dụ sau đây minh họa cách đánh giá chuẩn YOLO11 mô hình sử dụng Python API. Quá trình này đánh giá tốc độ và độ chính xác của mô hình trên một tập dữ liệu chuẩn.

from ultralytics import YOLO

# Load the official YOLO11 nano model
model = YOLO("yolo11n.pt")

# Run benchmarks to evaluate performance across different formats
# This checks speed and accuracy on the COCO8 dataset
results = model.benchmark(data="coco8.yaml", imgsz=640, half=False)

Những thách thức trong việc đánh giá chuẩn

Mặc dù các tiêu chuẩn đánh giá rất cần thiết, nhưng chúng không phải là hoàn hảo. Một hiện tượng được gọi là "sai lệch tập dữ liệu" có thể xảy ra nếu tiêu chuẩn đánh giá không phản ánh chính xác sự đa dạng của thế giới thực. Ví dụ, một tiêu chuẩn đánh giá nhận dạng khuôn mặt thiếu sự đa dạng về mặt nhân khẩu học có thể dẫn đến các mô hình hoạt động kém hiệu quả đối với một số nhóm nhất định. Hơn nữa, các nhà nghiên cứu phải tránh "dạy để kiểm tra", tức là họ tối ưu hóa một mô hình cụ thể để đạt điểm cao trong tiêu chuẩn đánh giá mà không khái quát hóa sang dữ liệu mới, chưa được biết đến. Việc cập nhật liên tục các tập dữ liệu, chẳng hạn như những tập dữ liệu được thấy trong dự án Objects365 , giúp giảm thiểu những vấn đề này bằng cách tăng tính đa dạng và quy mô.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay