Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Bộ dữ liệu chuẩn

Khám phá cách các bộ dữ liệu chuẩn thúc đẩy sự đổi mới AI bằng cách cho phép đánh giá mô hình công bằng, khả năng tái tạo và tiến bộ trong máy học.

Bộ dữ liệu chuẩn (Benchmark Dataset) là một tập hợp dữ liệu tiêu chuẩn hóa, chất lượng cao được thiết kế để đánh giá hiệu suất của các mô hình học máy (ML) một cách công bằng, có thể tái tạo và khách quan. Không giống như dữ liệu độc quyền được sử dụng để thử nghiệm nội bộ, bộ dữ liệu chuẩn đóng vai trò là "thước đo" công khai cho cộng đồng nghiên cứu và phát triển. Bằng cách thử nghiệm các thuật toán khác nhau trên cùng một dữ liệu đầu vào và sử dụng các chỉ số đánh giá giống hệt nhau, các nhà phát triển có thể xác định chính xác mô hình nào mang lại độ chính xác, tốc độ hoặc hiệu quả vượt trội. Các bộ dữ liệu này rất quan trọng để theo dõi tiến bộ khoa học trong các lĩnh vực như thị giác máy tính (CV) và xử lý ngôn ngữ tự nhiên.

Tầm quan trọng của việc chuẩn hóa

Trong bối cảnh trí tuệ nhân tạo (AI) đang phát triển nhanh chóng, việc tuyên bố một mô hình mới "nhanh hơn" hoặc "chính xác hơn" thực chất là vô nghĩa nếu không có điểm tham chiếu chung. Các bộ dữ liệu chuẩn cung cấp nền tảng chung cần thiết này. Chúng thường được chọn lọc để đại diện cho các thách thức cụ thể, chẳng hạn như phát hiện các vật thể nhỏ, xử lý vật cản hoặc điều hướng trong điều kiện ánh sáng yếu.

Các cuộc thi lớn, chẳng hạn như ImageNet Large Scale Visual Recognition Challenge , dựa vào các tập dữ liệu này để thúc đẩy sự cạnh tranh lành mạnh và đổi mới. Việc tiêu chuẩn hóa này đảm bảo rằng những cải tiến trong kiến trúc mô hình thể hiện những tiến bộ thực sự về công nghệ chứ không phải là kết quả của việc thử nghiệm trên các dữ liệu dễ hơn, không chuẩn hoặc được chọn lọc một cách có chủ đích. Hơn nữa, việc sử dụng các tiêu chuẩn đã được thiết lập giúp các nhà nghiên cứu xác định được sự thiên lệch tiềm ẩn của tập dữ liệu , đảm bảo rằng các mô hình có khả năng khái quát hóa tốt đối với các tình huống thực tế đa dạng.

Phân biệt điểm chuẩn với các cách chia dữ liệu khác

Điều quan trọng là phải phân biệt tập dữ liệu chuẩn với các tập dữ liệu được chia nhỏ được sử dụng trong chu kỳ phát triển mô hình tiêu chuẩn. Mặc dù chúng có những điểm tương đồng, nhưng vai trò của chúng lại khác nhau:

  • Dữ liệu huấn luyện : Là tài liệu được sử dụng để huấn luyện mô hình. Thuật toán điều chỉnh trọng số nội bộ dựa trên dữ liệu này.
  • Dữ liệu Xác thực : Một tập hợp con được sử dụng trong quá trình huấn luyện để điều chỉnh siêu tham số và ngăn ngừa hiện tượng quá khớp . Nó đóng vai trò kiểm tra sơ bộ nhưng không đại diện cho điểm số cuối cùng.
  • Dữ liệu thử nghiệm : Bộ dữ liệu nội bộ được sử dụng để kiểm tra hiệu suất trước khi phát hành.
  • Bộ dữ liệu chuẩn: Một bộ dữ liệu kiểm tra bên ngoài được chấp nhận rộng rãi. Mặc dù chuẩn đóng vai trò là dữ liệu kiểm tra, nhưng điểm khác biệt chính của nó là vai trò là một tiêu chuẩn công khai để so sánh mô hình .

Các Ứng dụng Thực tế

Các bộ dữ liệu chuẩn xác định sự thành công trong nhiều ngành công nghiệp khác nhau bằng cách thiết lập các tiêu chuẩn an toàn và độ tin cậy nghiêm ngặt. Chúng cho phép các tổ chức xác minh rằng một mô hình đã sẵn sàng để triển khai trong các môi trường quan trọng.

Phát hiện đối tượng trong tầm nhìn mục đích chung

Ví dụ nổi bật nhất trong lĩnh vực phát hiện đối tượng là tập dữ liệu COCO (Common Objects in Context) . Khi Ultralytics Khi phát hành một kiến trúc mới như YOLO26 , hiệu năng của nó được đánh giá nghiêm ngặt dựa trên các tiêu chuẩn so sánh. COCO Để xác minh những cải tiến về Độ chính xác trung bình ( mAP ) . Điều này cho phép các nhà nghiên cứu thấy chính xác YOLO26 so sánh như thế nào với YOLO11 hoặc các mô hình tiên tiến khác trong việc nhận dạng các đối tượng hàng ngày như người, xe đạp và động vật.

An toàn lái xe tự động

Trong ngành công nghiệp ô tô, an toàn là yếu tố tối quan trọng. Các nhà phát triển xe tự lái sử dụng các bộ dữ liệu chuẩn chuyên dụng như KITTI Vision Benchmark Suite hoặc Waymo Open Dataset . Các bộ dữ liệu này chứa các bản ghi phức tạp, được chú thích về môi trường lái xe đô thị, bao gồm người đi bộ, người đi xe đạp và biển báo giao thông. Bằng cách đánh giá các hệ thống nhận thức dựa trên các bộ dữ liệu chuẩn này, các kỹ sư có thể định lượng độ mạnh mẽ của hệ thống trong các tình huống giao thông thực tế, đảm bảo rằng trí tuệ nhân tạo phản ứng chính xác với các mối nguy hiểm động.

Đánh giá chuẩn với Ultralytics

Để tạo điều kiện so sánh chính xác, Ultralytics Cung cấp các công cụ tích hợp để đánh giá hiệu năng của các mô hình trên các định dạng xuất khác nhau, chẳng hạn như ONNX hoặc TensorRT . Điều này giúp người dùng xác định sự cân bằng tốt nhất giữa độ trễ suy luận và độ chính xác cho phần cứng cụ thể của họ, cho dù triển khai trên thiết bị biên hay máy chủ đám mây.

Ví dụ sau đây minh họa cách đánh giá hiệu năng của mô hình YOLO26 bằng cách sử dụng... Python API. Quá trình này đánh giá tốc độ và độ chính xác của mô hình trên cấu hình tập dữ liệu tiêu chuẩn.

from ultralytics import YOLO

# Load the official YOLO26 nano model
model = YOLO("yolo26n.pt")

# Run benchmarks to evaluate performance across different formats
# This checks speed and accuracy (mAP) on the COCO8 dataset
results = model.benchmark(data="coco8.yaml", imgsz=640, half=False)

Những thách thức và cân nhắc

Mặc dù các tiêu chuẩn đánh giá rất cần thiết, nhưng chúng không hoàn hảo. Hiện tượng "dạy theo bài kiểm tra" có thể xảy ra nếu các nhà nghiên cứu tối ưu hóa mô hình để đạt điểm cao trong bài kiểm tra, mà bỏ qua khả năng khái quát hóa đối với dữ liệu mới, chưa từng thấy. Thêm vào đó, các tiêu chuẩn đánh giá tĩnh có thể trở nên lỗi thời khi điều kiện thực tế thay đổi. Việc cập nhật liên tục các tập dữ liệu, như trong dự án Objects365 hoặc Open Images của Google , giúp giảm thiểu những vấn đề này bằng cách tăng tính đa dạng và quy mô. Người dùng muốn quản lý tập dữ liệu của riêng mình để đánh giá hiệu năng tùy chỉnh có thể tận dụng Nền tảng Ultralytics để đơn giản hóa việc thu thập và đánh giá dữ liệu.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay