Khám phá tầm quan trọng của độ chính xác trong học máy, cách tính toán, các hạn chế với bộ dữ liệu không cân bằng và các cách để cải thiện hiệu suất mô hình.
Độ chính xác là một trong những thước đo cơ bản nhất để đánh giá hiệu suất của một mô hình phân loại. Nó thể hiện tỷ lệ dự đoán chính xác được hệ thống đưa ra so với tổng số dự đoán được xử lý. Trong bối cảnh rộng hơn của học máy (ML) , độ chính xác thường là yếu tố đầu tiên mà các nhà phát triển xem xét để đánh giá liệu một mô hình đang học hiệu quả hay chỉ đơn thuần là phỏng đoán. Mặc dù cung cấp một cái nhìn tổng quan nhanh về hiệu quả, độ chính xác thường được sử dụng cùng với các thước đo đánh giá khác để đảm bảo hiểu biết toàn diện về hành vi của mô hình, đặc biệt là khi phân biệt giữa các lớp trong các tập dữ liệu phức tạp.
Việc tính toán độ chính xác rất đơn giản, giúp các bên liên quan, từ nhà khoa học dữ liệu đến giám đốc điều hành doanh nghiệp, dễ dàng tiếp cận. Về mặt toán học, độ chính xác được định nghĩa là số lượng kết quả dương tính thật và kết quả âm tính thật chia cho tổng số trường hợp. Đối với các tác vụ học có giám sát , chỉ số này cho biết tần suất thuật toán khớp với dữ liệu thực tế được cung cấp trong dữ liệu huấn luyện . Tuy nhiên, độ chính xác cao không phải lúc nào cũng đồng nghĩa với một mô hình hoàn hảo; độ tin cậy của nó phụ thuộc rất nhiều vào sự phân bố của dữ liệu cơ sở.
Độ chính xác đóng vai trò then chốt trong nhiều ngành công nghiệp, nơi việc ra quyết định tự động hỗ trợ các chuyên gia.
Khi phát triển các mô hình với ultralytics Gói, việc đánh giá độ chính xác là một phần tiêu chuẩn của quy trình xác thực. Ví dụ sau đây minh họa cách tải
YOLO11 mô hình phân loại và xác thực nó để lấy số liệu về độ chính xác.
from ultralytics import YOLO
# Load a pretrained YOLO11 classification model
model = YOLO("yolo11n-cls.pt")
# Validate the model on the MNIST160 dataset
# The function returns a metrics object containing top1 and top5 accuracy
metrics = model.val(data="mnist160")
# Display the Top-1 accuracy (percentage of times the top prediction was correct)
print(f"Top-1 Accuracy: {metrics.top1:.2f}")
Mặc dù trực quan, độ chính xác có thể gây hiểu lầm khi xử lý một tập dữ liệu mất cân bằng . Hiện tượng này được gọi là nghịch lý độ chính xác. Ví dụ, trong một kịch bản phát hiện gian lận mà chỉ có 1% giao dịch là gian lận, một mô hình chỉ đơn giản dự đoán "hợp lệ" cho mọi giao dịch sẽ đạt độ chính xác 99%. Tuy nhiên, nó sẽ hoàn toàn thất bại trong nhiệm vụ chính là phát hiện gian lận. Trong những trường hợp như vậy, mô hình thể hiện độ chính xác cao nhưng lại không có khả năng dự đoán đối với nhóm thiểu số.
Để giải quyết vấn đề này, các học viên sử dụng phương pháp tăng cường dữ liệu để cân bằng các lớp hoặc xem xét các số liệu khác nhau để phân tích các loại lỗi đang mắc phải.
Để hiểu đầy đủ về hiệu suất của mô hình, độ chính xác phải được phân biệt với các thuật ngữ liên quan:
Việc nâng cao độ chính xác đòi hỏi một quá trình thử nghiệm lặp đi lặp lại. Các nhà phát triển thường sử dụng điều chỉnh siêu tham số để điều chỉnh tốc độ học và kích thước lô để đạt được sự hội tụ tối ưu. Ngoài ra, việc sử dụng các kiến trúc tiên tiến như Transformers hoặc các phiên bản mới nhất của Ultralytics YOLO có thể mang lại những cải tiến đáng kể. Cuối cùng, việc đảm bảo tập dữ liệu huấn luyện sạch và đa dạng thông qua học tập chủ động giúp mô hình tổng quát hóa tốt hơn với dữ liệu thực tế chưa được biết đến.