Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024

Độ chính xác so với độ chính xác (precision) so với độ phủ (recall) trong học máy

Abirami Vina

6 phút đọc

20 tháng 8, 2025

Tìm hiểu về Độ chính xác (Accuracy), Độ chuẩn xác (Precision) và Độrecall (Recall) trong Machine Learning. Khám phá Ma trận nhầm lẫn (Confusion Matrix), Điểm F1 (F1 Score) và cách sử dụng các chỉ số đánh giá quan trọng này.

Học máy (ML) là một nhánh của trí tuệ nhân tạo (AI) tập trung vào việc tạo ra các hệ thống học hỏi từ dữ liệu. Nó đóng một vai trò trung tâm trong nhiều lĩnh vực khác của AI, bao gồm thị giác máy tính, nơi máy móc diễn giải hình ảnh và xử lý ngôn ngữ tự nhiên, nơi chúng hiểu và tạo ra ngôn ngữ của con người.

Thông thường, các mô hình AI như vậy sử dụng các kỹ thuật học sâu để đưa ra dự đoán từ dữ liệu. Mặc dù các hệ thống như vậy có thể rất hiệu quả, nhưng chúng không phải lúc nào cũng đưa ra các dự đoán chính xác. Một số kết quả có thể chính xác, trong khi những kết quả khác lại không đạt được mục tiêu. 

Biết cách các lỗi này xảy ra là một phần quan trọng trong việc đánh giá hiệu suất của mô hình. Để đo lường hiệu suất, chúng ta có thể sử dụng các chỉ số đánh giá mô hình

Các chỉ số đánh giá phổ biến bao gồm độ chính xác (accuracy - tính đúng đắn tổng thể), độ chuẩn xác (precision - độ tin cậy của các dự đoán dương tính) và độ phủ (recall - mức độ mô hình xác định các dương tính thực tế). Thoạt đầu, chúng có vẻ giống nhau, nhưng mỗi chỉ số tập trung vào một phần khác nhau trong hành vi của mô hình. 

Trong bài viết này, chúng ta sẽ xem xét kỹ hơn từng số liệu hiệu suất mô hình AI này. Chúng ta cũng sẽ khám phá cách chúng liên quan đến nhau và cách chọn số liệu phù hợp cho trường hợp sử dụng của bạn. Hãy cùng bắt đầu!

Các chỉ số đánh giá mô hình rất quan trọng trong machine learning

Một mô hình học máy có vẻ như đang hoạt động tốt lúc ban đầu. Nhưng nếu không có các số liệu đánh giá phù hợp, rất khó để hiểu kết quả của nó chính xác đến mức nào. Các số liệu này cung cấp cấu trúc cho việc đánh giá mô hình và giúp trả lời một câu hỏi quan trọng: Các dự đoán của mô hình có hữu ích và đáng tin cậy cho một tác vụ nhất định hay không?

Các số liệu như độ chính xác (accuracy), độ chuẩn xác (precision) và độ phủ (recall) cung cấp cho các nhà phát triển AI một cách rõ ràng để đo lường mức độ hoạt động tốt của một mô hình. Ví dụ: khi so sánh các mô hình khác nhau, các số liệu này giúp có thể thấy mô hình nào hoạt động tốt nhất cho một nhiệm vụ cụ thể. Chúng giúp đánh giá hiệu suất và hướng dẫn việc lựa chọn mô hình phù hợp nhất với mục tiêu của một dự án AI.

Hình 1. Quy trình làm việc huấn luyện và đánh giá mô hình (Nguồn)

Các số liệu này cũng giúp việc so sánh hiệu suất trở nên khách quan hơn. Thay vì dựa vào phỏng đoán hoặc quan sát không đầy đủ, chúng cung cấp những hiểu biết có thể đo lường được về cách một mô hình hoạt động trong các tình huống khác nhau. Bằng cách đó, chúng làm nổi bật những khía cạnh nào của hiệu suất quan trọng nhất trong từng ngữ cảnh.

Ví dụ: việc lựa chọn số liệu thường phụ thuộc vào ứng dụng. Trong các ứng dụng AI chăm sóc sức khỏe, độ recall rất quan trọng vì mục tiêu là xác định càng nhiều trường hợp dương tính càng tốt, ngay cả khi một số trường hợp âm tính bị gắn cờ nhầm. Ngược lại, bộ lọc thư rác email có thể ưu tiên độ precision để tránh đánh dấu nhầm các email hợp lệ là thư rác.

Ma trận nhầm lẫn: Nền tảng của các số liệu phân loại

Ma trận nhầm lẫn là một bảng hai nhân hai, nền tảng để đánh giá các mô hình AI. Nó sắp xếp các dự đoán thành bốn loại bằng cách so sánh kết quả thực tế với kết quả dự đoán (các câu trả lời mà mô hình đưa ra). 

So sánh này cung cấp một cái nhìn chi tiết về hiệu suất của mô hình. Nó tạo thành cơ sở cho các số liệu đánh giá chính như độ chính xác và độ thu hồi, được tính trực tiếp từ các giá trị trong ma trận.

Các hàng của bảng biểu thị các lớp thực tế và các cột biểu thị các lớp được dự đoán. Mỗi ô hiển thị số lượng kết quả trong danh mục đó. Nói một cách đơn giản, nó thể hiện có bao nhiêu dự đoán là chính xác và các loại lỗi mà mô hình mắc phải.

Ma trận nhầm lẫn (confusion matrix) đặc biệt hữu ích khi dữ liệu không cân bằng, nghĩa là một số danh mục có nhiều mẫu hơn các danh mục khác. Nó cũng hữu ích khi các loại lỗi khác nhau có chi phí khác nhau. 

Ví dụ: trong phát hiện gian lận, việc bắt được hoạt động gian lận là rất quan trọng, nhưng việc gắn cờ sai các giao dịch thực cũng có thể gây ra vấn đề. Ma trận này làm rõ mức độ thường xuyên xảy ra của từng loại lỗi.

Các thành phần của ma trận nhầm lẫn (confusion matrix)

Đây là tổng quan về các thành phần khác nhau trong ma trận nhầm lẫn:

  • Dương tính đúng (TP): Khi mô hình dự đoán chính xác một trường hợp dương tính, nó được ghi lại là một dương tính đúng. Ví dụ: một mô hình thị giác máy tính phân loại chính xác một chiếc xe trong một hình ảnh.

  • Âm tính đúng (TN): Một trường hợp âm tính đúng xảy ra khi mô hình xác định chính xác một trường hợp âm tính. Ví dụ: một trình phân loại email đánh dấu một tin nhắn thông thường là không phải thư rác.

  • Dương tính giả (FP): Mô hình tạo ra một dương tính giả khi nó dự đoán sai một kết quả dương tính cho một trường hợp thực sự là âm tính. Còn được gọi là Lỗi Loại I, điều này có thể xảy ra khi một hệ thống phát hiện gian lận gắn cờ một giao dịch hợp lệ là gian lận.

  • Âm tính giả (FN): Âm tính giả được ghi lại khi mô hình không phát hiện ra một trường hợp dương tính và dự đoán sai là âm tính. Còn được gọi là Lỗi Loại II, điều này có thể xảy ra khi một công cụ chẩn đoán bỏ sót một căn bệnh ở một bệnh nhân thực sự bị bệnh.
Hình 2. Các thành phần của ma trận nhầm lẫn (Nguồn)

Biểu diễn và diễn giải trực quan của ma trận nhầm lẫn

Ma trận nhầm lẫn được hiển thị ở định dạng lưới. Trục dọc hiển thị các lớp thực tế và trục ngang hiển thị các lớp được dự đoán. Các dự đoán chính xác xuất hiện dọc theo đường chéo, đại diện cho true positives (dương tính thật) và true negatives (âm tính thật).

Các lỗi nằm ngoài đường chéo, bao gồm dương tính giả và âm tính giả. Cấu trúc này giúp dễ dàng phát hiện ra điểm mạnh và điểm yếu.

Độ chính xác (Accuracy) trong machine learning là gì?

Độ chính xác là một trong những số liệu được sử dụng rộng rãi nhất để đánh giá hiệu suất của mô hình học máy. Nó đo lường tần suất các dự đoán là chính xác trên tất cả các lớp. Nói cách khác, nó trả lời một câu hỏi đơn giản: Trong tất cả các dự đoán mà mô hình AI đã đưa ra, có bao nhiêu dự đoán đúng?

Công thức tính độ chính xác là số lượng dự đoán đúng (bao gồm cả true positive và true negative) chia cho tổng số dự đoán. Độ chính xác rất dễ tính toán và dễ hiểu, điều này làm cho nó trở thành một điểm khởi đầu phổ biến trong đánh giá mô hình.

Nói chung, độ chính xác là đáng tin cậy khi xử lý các bộ dữ liệu cân bằng. Tuy nhiên, độ chính xác thường có thể gây hiểu lầm trong các bộ dữ liệu không cân bằng, trong đó một lớp chiếm ưu thế so với các lớp khác. Một mô hình luôn dự đoán lớp đa số vẫn có thể đạt được điểm độ chính xác cao trong khi không phát hiện ra các lớp thiểu số khác.

Ví dụ: trong một tập dữ liệu hình ảnh mà chỉ một vài hình ảnh có người đi bộ, một mô hình dự đoán "không có người đi bộ" cho mọi hình ảnh vẫn có thể đạt được độ chính xác cao nhưng hoàn toàn không phát hiện được người đi bộ thực tế.

Điều này là do bản thân độ chính xác không cho thấy loại sai lầm mà một mô hình mắc phải hoặc tần suất chúng xảy ra. Đó là lý do tại sao điều quan trọng là cũng phải xem xét các số liệu như độ chính xác và độ phủ để hiểu đầy đủ về hiệu quả hoạt động của mô hình AI.

Tìm hiểu sâu về độ chính xác: Giảm thiểu báo động sai

Độ chính xác (Precision) là một số liệu đánh giá quan trọng, đo lường độ chính xác của các dự đoán dương tính của mô hình. Nó trả lời câu hỏi: Trong tất cả các trường hợp được dự đoán là dương tính, có bao nhiêu trường hợp là đúng?

Công thức tính độ chính xác là số lượng true positive chia cho tổng của true positive và false positive. Nó đặc biệt quan trọng khi một dự đoán positive sẽ tốn kém nếu nó hóa ra là sai.

Hình 3. So sánh độ chính xác và độ chụm. (Nguồn)

Ví dụ: trong phát hiện gian lận, một mô hình có độ chính xác thấp có thể gắn cờ nhiều giao dịch hợp lệ là gian lận, gây ra các vấn đề không cần thiết cho cả người dùng và nhóm hỗ trợ. Một mô hình có độ chính xác cao làm giảm rủi ro này bằng cách đảm bảo rằng các giao dịch được gắn cờ có nhiều khả năng là gian lận thực tế hơn.

Mặc dù độ chính xác cao là tốt, nhưng các mô hình tập trung quá nhiều vào nó có thể trở nên rất chọn lọc, bỏ lỡ các trường hợp dương tính thực tế. Đó là lý do tại sao số liệu độ chính xác thường được kiểm tra cùng với độ phủ để giữ cho hiệu suất cân bằng.

Recall là gì?

Độ phủ (Recall) là một số liệu được sử dụng để đo lường mức độ mô hình xác định các trường hợp dương tính thực tế. Nó được gọi là độ nhạy hoặc tỷ lệ dương tính thực, và nó trả lời câu hỏi: Trong tất cả các trường hợp dương tính thực tế, mô hình đã phát hiện chính xác bao nhiêu trường hợp?

Công thức tính độ phủ (recall) là số lượng true positive chia cho tổng của true positive và false negative. Điểm độ phủ cao cho thấy rằng mô hình đang nắm bắt hầu hết các trường hợp positive thực tế trong dữ liệu. 

Độ phủ (Recall) là yếu tố thiết yếu trong các ngành như chăm sóc sức khỏe, nơi việc không phát hiện ra một bệnh trạng có thể trì hoãn điều trị và gây nguy hiểm cho bệnh nhân. Ngay cả khi một số trường hợp âm tính bị gắn cờ sai, thì việc xác định tất cả các trường hợp dương tính thực sự vẫn là ưu tiên hàng đầu.

Tuy nhiên, các mô hình chỉ tập trung vào recall có thể gắn cờ quá nhiều dương tính giả, điều này làm giảm độ chính xác và gây tổn hại đến hiệu quả tổng thể của mô hình. Cân bằng giữa recall và precision là rất quan trọng để có hiệu suất mô hình AI đáng tin cậy.

Sự cân bằng: Đánh đổi giữa độ chính xác (Precision) và độ phủ (Recall)

Độ chính xác (Precision) và độ phủ (Recall) thường di chuyển theo hướng ngược nhau. Khi một chỉ số được cải thiện, chỉ số còn lại có thể giảm. Sự đánh đổi này là một thách thức phổ biến trong các tác vụ học máy.

Một mô hình có độ chính xác cao chỉ dự đoán một điều gì đó là tích cực khi nó tự tin. Điều này làm giảm báo động sai nhưng có thể bỏ lỡ những kết quả dương tính thực sự, điều này làm giảm độ recall. Một mô hình cố gắng bắt mọi kết quả dương tính làm tăng độ recall nhưng có nguy cơ báo động sai nhiều hơn, điều này làm giảm độ chính xác.

Sự đánh đổi này trở nên rõ ràng hơn khi bạn điều chỉnh ngưỡng quyết định của mô hình. Ngưỡng là điểm giới hạn mà hệ thống sử dụng để chuyển đổi điểm số hoặc xác suất thành một hành động hoặc nhãn. Hạ thấp ngưỡng khiến hệ thống hành động tích cực thường xuyên hơn, điều này có thể làm tăng độ phủ (recall) nhưng có thể làm giảm độ chính xác (precision). Nâng cao ngưỡng có tác dụng ngược lại: mô hình dự đoán ít kết quả dương tính hơn, độ chính xác được cải thiện, nhưng độ phủ thường giảm.

Giả sử bạn’đang làm việc về phát hiện thư rác. Mô hình phải cân bằng giữa rủi ro để thư rác vào hộp thư đến với rủi ro chặn các email thực. Một bộ lọc nghiêm ngặt vẫn có thể bỏ sót một số thư rác, trong khi một bộ lọc dễ dãi hơn có thể vô tình chặn các thư hợp lệ. Sự cân bằng phù hợp phụ thuộc vào trường hợp sử dụng và chi phí của từng loại lỗi.

Ý nghĩa của đường cong precision–recall

Đường cong precision-recall hay đường cong PR cho thấy độ chính xác và độ phủ thay đổi như thế nào khi ngưỡng quyết định của mô hình thay đổi. Mỗi điểm đại diện cho một sự đánh đổi khác nhau giữa hai yếu tố này. Đường cong PR đặc biệt hữu ích cho các bộ dữ liệu không cân bằng, trong đó một lớp ít xuất hiện hơn nhiều. 

Nó cũng cung cấp cái nhìn sâu sắc có ý nghĩa hơn so với đường cong Receiver Operating Characteristic (ROC), đường cong này cũng cho thấy mức độ tốt của mô hình trong việc phân tách các kết quả dương tính với âm tính ở các ngưỡng quyết định khác nhau. Một mô hình có độ chính xác và độ phủ cao sẽ có đường cong precision-recall nằm gần góc trên bên phải, đây thường là lý tưởng.

Giới thiệu điểm F1: Một chỉ số kết hợp để cân bằng

F1-score cung cấp một giá trị duy nhất nắm bắt sự cân bằng giữa độ chính xác (precision) và độ phủ (recall). F1-score được tính bằng hai lần tích của độ chính xác và độ phủ, chia cho tổng của độ chính xác và độ phủ. Nó hữu ích khi cả dương tính giả và âm tính giả đều quan trọng, và nó hữu ích khi làm việc với các tập dữ liệu không cân bằng hoặc khi cần một cái nhìn cân bằng về hiệu suất của mô hình.

Hình 4. Tính toán F1-score bằng cách sử dụng độ chính xác và độ phủ (Nguồn)

Ngoài độ chính xác (accuracy), độ chuẩn xác (precision) và độ phủ (recall)

Mặc dù độ chính xác, độ chuẩn xác và độ phủ là rất cần thiết, nhưng các số liệu khác cung cấp những hiểu biết bổ sung dựa trên loại mô hình và đặc điểm tập dữ liệu. 

Dưới đây là một số chỉ số thường được sử dụng để đánh giá các khía cạnh khác nhau của hiệu suất:

  • Độ đặc hiệu: Đo lường mức độ mô hình xác định các giá trị âm tính thực tế. Nó hữu ích khi tránh dương tính giả là quan trọng.

  • AUC: AUC, hay Diện tích dưới đường cong, cho một điểm số duy nhất phản ánh mức độ mô hình có thể phân biệt giữa các lớp.

  • Log loss: Log loss được sử dụng để đo mức độ tự tin của mô hình khi đưa ra dự đoán và phạt nặng hơn đối với các dự đoán sai được đưa ra với độ tin cậy cao. Ở đây, độ tin cậy đề cập đến mức độ chắc chắn của mô hình về dự đoán của nó.

  • Đánh giá đa nhãn: Trong các tác vụ đa nhãn, các số liệu được tính trung bình trên các nhãn để phản ánh hiệu suất tổng thể của mô hình.

Áp dụng độ chính xác (accuracy), độ chuẩn xác (precision) và độ phủ (recall) trong thị giác máy tính

Bây giờ chúng ta đã hiểu rõ hơn về độ chính xác (accuracy), độ chuẩn xác (precision) và độ phủ (recall), hãy cùng xem xét cách các chỉ số này được áp dụng trong thị giác máy tính.

Các mô hình thị giác máy tính như Ultralytics YOLO11 hỗ trợ các tác vụ như phát hiện đối tượng, trong đó mô hình xác định những đối tượng nào có trong ảnh và định vị chúng bằng cách sử dụng hộp giới hạn (bounding box). Mỗi dự đoán bao gồm cả nhãn đối tượng và vị trí của nó, điều này làm cho việc đánh giá trở nên phức tạp hơn so với việc chỉ kiểm tra xem một nhãn có chính xác hay không.

Hình 5. Một ví dụ về sử dụng Ultralytics YOLO11 để phát hiện đối tượng. (Nguồn)

Hãy xem xét một ứng dụng bán lẻ trong đó camera được sử dụng để tự động theo dõi sản phẩm trên kệ. Một mô hình phát hiện đối tượng có thể xác định các mặt hàng như hộp ngũ cốc, lon soda hoặc chai nước và đánh dấu vị trí của chúng. 

Trong trường hợp này, độ chính xác (precision) cho biết bao nhiêu mục được phát hiện là đúng. Độ chính xác cao có nghĩa là hệ thống tránh được các lỗi dương tính giả, chẳng hạn như việc gán nhãn một cái bóng hoặc đối tượng nền là một sản phẩm. Độ phủ (recall) cho biết mô hình đã phát hiện được bao nhiêu sản phẩm thực tế trên kệ. Độ phủ cao có nghĩa là ít mục bị bỏ sót hơn, điều này rất quan trọng để đếm hàng tồn kho chính xác.

Độ chính xác vẫn có thể cung cấp thước đo tổng quan về tính đúng đắn, nhưng trong bối cảnh này, việc bỏ sót thậm chí một vài sản phẩm hoặc phát hiện các mặt hàng không có ở đó có thể có tác động lớn đến việc quản lý hàng tồn kho. Đó là lý do tại sao các nhà phát triển xem xét độ chính xác (precision), độ phủ (recall) và độ đúng (accuracy) cùng nhau để đảm bảo hệ thống vừa đáng tin cậy vừa thiết thực để sử dụng trong thế giới thực.

Độ chính xác, độ chính xác (precision) và độ phủ (recall): Những điểm chính

Độ chính xác, độ chính xác (precision) và độ phủ (recall) mỗi loại thể hiện các khía cạnh khác nhau về hiệu suất của mô hình học máy. Chỉ dựa vào một số liệu duy nhất có thể gây hiểu lầm.

Các công cụ và số liệu như ma trận nhầm lẫn, đường cong precision–recall và F1-score giúp tiết lộ sự đánh đổi và hướng dẫn các quyết định về việc cải thiện mô hình ML. Bằng cách chọn đúng sự kết hợp của các số liệu cho một giải pháp AI cụ thể, bạn có thể đảm bảo các mô hình chính xác, đáng tin cậy và hiệu quả trong các ứng dụng thực tế.

Khám phá cộng đồng đang phát triển của chúng tôi! Tham khảo kho lưu trữ GitHub của chúng tôi để tìm hiểu thêm về AI. Bạn đã sẵn sàng bắt đầu các dự án thị giác máy tính của mình chưa? Hãy xem các tùy chọn cấp phép của chúng tôi. Khám phá AI trong nông nghiệpVision AI trong ngành robot bằng cách truy cập các trang giải pháp của chúng tôi! 

Hãy cùng nhau xây dựng tương lai
của AI!

Bắt đầu hành trình của bạn với tương lai của học máy

Bắt đầu miễn phí
Đã sao chép liên kết vào clipboard