Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024

Độ chính xác trung bình (mAP) trong phát hiện đối tượng

Abirami Vina

6 phút đọc

28 tháng 8, 2025

Tìm hiểu Độ chính xác Trung bình (mAP) trong Phát hiện Đối tượng. Tìm hiểu ý nghĩa, cách tính và lý do tại sao mAP là chìa khóa để đánh giá hiệu suất mô hình.

Việc ứng dụng AI đang phát triển nhanh chóng và AI đang được tích hợp vào nhiều đổi mới khác nhau, từ xe tự lái đến hệ thống bán lẻ có thể xác định sản phẩm trên kệ. Các công nghệ này dựa vào thị giác máy tính, một nhánh của trí tuệ nhân tạo (AI) cho phép máy móc phân tích dữ liệu trực quan. 

Một chỉ số đánh giá quan trọng được sử dụng để đo lường độ chính xác của các hệ thống và thuật toán thị giác máy tính là độ chính xác trung bình (mAP). Số liệu mAP cho biết mức độ khớp nhau giữa dự đoán của mô hình Vision AI và kết quả thực tế.

Một nhiệm vụ phổ biến của thị giác máy tính là phát hiện đối tượng, trong đó một mô hình xác định nhiều đối tượng trong một hình ảnh và vẽ các bounding box xung quanh chúng. mAP là số liệu tiêu chuẩn được sử dụng để đánh giá hiệu suất của các mô hình phát hiện đối tượng và được sử dụng rộng rãi để đánh giá các mô hình học sâu như Ultralytics YOLO11.

Trong bài viết này, chúng ta sẽ xem độ chính xác trung bình (mean average precision) được tính như thế nào và tại sao nó lại cần thiết cho bất kỳ ai huấn luyện hoặc đánh giá các mô hình phát hiện đối tượng. Hãy bắt đầu!

Mean Average Precision (mAP) là gì?

Độ chính xác trung bình là một điểm số cho thấy mức độ chính xác của một mô hình deep learning khi thực hiện các tác vụ liên quan đến truy xuất thông tin trực quan, chẳng hạn như phát hiện và xác định các đối tượng khác nhau trong một hình ảnh. Ví dụ: hãy xem xét một mô hình phát hiện đối tượng phân tích một bức ảnh có chứa một con chó, một con mèo và một chiếc ô tô. Một mô hình đáng tin cậy có thể thực hiện phát hiện đối tượng bằng cách nhận dạng từng đối tượng và vẽ các khung giới hạn và nhãn xung quanh nó, làm nổi bật vị trí và đối tượng đó là gì.

mAP cho biết mức độ hiệu quả của mô hình trong nhiệm vụ này trên nhiều hình ảnh và các loại đối tượng khác nhau. Nó kiểm tra xem mô hình có xác định chính xác từng đối tượng và vị trí của nó trong hình ảnh hay không. Điểm số dao động từ 0 đến 1, trong đó một có nghĩa là mô hình tìm thấy mọi thứ một cách hoàn hảo và không có nghĩa là nó không phát hiện được bất kỳ đối tượng nào.

Các khái niệm chính trong độ chính xác trung bình (mAP)

Trước khi khám phá các khái niệm đằng sau độ chính xác trung bình (mean average precision) trong học máy, hãy hiểu rõ hơn về hai thuật ngữ cơ bản: ground truth (sự thật cơ bản) và predictions (dự đoán). 

Ground truth đề cập đến dữ liệu tham chiếu chính xác, trong đó các đối tượng và vị trí của chúng trong hình ảnh được con người gắn nhãn cẩn thận thông qua một quy trình gọi là chú thích. Trong khi đó, các dự đoán là kết quả mà các mô hình AI đưa ra sau khi phân tích một hình ảnh. Bằng cách so sánh các dự đoán của mô hình AI với ground truth, chúng ta có thể đo lường mức độ gần đúng của mô hình so với kết quả chính xác. 

Hình 1. Dự đoán của mô hình và bounding box ground truth. Ảnh của tác giả.

Ma trận nhầm lẫn (Confusion matrix)

Ma trận nhầm lẫn (Confusion matrix) thường được sử dụng để hiểu độ chính xác của mô hình phát hiện đối tượng. Đó là một bảng cho thấy các dự đoán của mô hình khớp với các câu trả lời đúng thực tế (ground truth) như thế nào. Từ bảng này, chúng ta có thể có được sự phân tích chi tiết về bốn thành phần hoặc kết quả chính: true positives, false positives, false negatives và true negatives.

Dưới đây là ý nghĩa của các thành phần này trong ma trận nhầm lẫn:

  • Dương tính đúng (TP): Một đối tượng và vị trí của nó được mô hình phát hiện chính xác.
  • Dương tính giả (FP): Mô hình đã thực hiện phát hiện, nhưng nó không chính xác.
  • Âm tính giả (FN): Một đối tượng thực sự có trong hình ảnh, nhưng mô hình không phát hiện ra.
  • Âm tính đúng (TN): Âm tính đúng xảy ra khi mô hình xác định chính xác sự vắng mặt của một đối tượng.

Âm tính đúng không được sử dụng phổ biến trong phát hiện đối tượng, vì chúng ta thường bỏ qua nhiều vùng trống trong một hình ảnh. Tuy nhiên, nó rất cần thiết trong các tác vụ thị giác máy tính khác, chẳng hạn như phân loại hình ảnh, trong đó mô hình gán một nhãn cho hình ảnh. Ví dụ: nếu nhiệm vụ là phát hiện xem một hình ảnh có chứa mèo hay không và mô hình xác định chính xác “không có mèo” khi hình ảnh không chứa mèo, thì đó là một âm tính đúng.

Hình 2. Kết quả phân loại trong ma trận nhầm lẫn. Ảnh của tác giả.

Intersection over Union (IoU)

Một chỉ số quan trọng khác trong việc đánh giá các mô hình phát hiện đối tượng là Intersection over Union (IoU). Đối với các mô hình Vision AI như vậy, chỉ phát hiện sự hiện diện của một đối tượng trong một hình ảnh là không đủ; nó cũng cần xác định vị trí của nó trong một hình ảnh để vẽ các hộp giới hạn. 

Số liệu IoU đo mức độ khớp nhau giữa hộp dự đoán của mô hình và hộp chính xác thực tế (ground truth). Điểm số nằm trong khoảng từ 0 đến 1, trong đó 1 có nghĩa là khớp hoàn hảo và 0 có nghĩa là không có sự chồng chéo nào.

Ví dụ: IoU cao hơn (như 0.80 hoặc 0.85) có nghĩa là hộp dự đoán khớp chặt chẽ với hộp ground-truth, cho thấy khả năng định vị chính xác. IoU thấp hơn (như 0.30 hoặc 0.25) có nghĩa là mô hình không định vị chính xác đối tượng.

Để xác định xem một phát hiện có thành công hay không, chúng ta sử dụng các ngưỡng khác nhau. Một ngưỡng IoU phổ biến là 0,5, có nghĩa là một hộp dự đoán phải chồng lên hộp ground-truth ít nhất 50% để được tính là true positive. Bất kỳ sự chồng chéo nào dưới ngưỡng này đều được coi là false positive.

Hình 3. Tìm hiểu về Intersection over Union (IoU). Hình ảnh của tác giả.

Độ chính xác (Precision) và độ phủ (Recall)

Cho đến nay, chúng ta đã khám phá một số số liệu đánh giá cơ bản để hiểu hiệu suất của các mô hình phát hiện đối tượng. Dựa trên điều này, hai trong số các số liệu quan trọng nhất là độ chính xác (precision) và độ phủ (recall). Chúng cung cấp cho chúng ta một bức tranh rõ ràng về độ chính xác của các phát hiện của mô hình. Hãy xem chúng là gì.

Các giá trị độ chính xác (Precision) cho chúng ta biết có bao nhiêu dự đoán của mô hình thực sự chính xác. Nó trả lời câu hỏi: trong tất cả các đối tượng mà mô hình tuyên bố phát hiện, có bao nhiêu đối tượng thực sự ở đó?

Mặt khác, giá trị Recall đo lường mức độ mô hình tìm thấy tất cả các đối tượng thực tế có trong ảnh. Nó trả lời câu hỏi: trong số tất cả các đối tượng thực tế hiện có, mô hình đã phát hiện chính xác được bao nhiêu?

Cùng với nhau, độ chính xác (precision) và độ phủ (recall) cho chúng ta một bức tranh rõ ràng hơn về hiệu suất của mô hình. Ví dụ: nếu một mô hình dự đoán 10 chiếc xe hơi trong một hình ảnh và 9 trong số đó thực sự là xe hơi, thì nó có độ chính xác là 90% (một dự đoán dương tính). 

Hai số liệu đánh giá này thường liên quan đến sự đánh đổi: một mô hình có thể đạt được giá trị precision cao bằng cách chỉ đưa ra các dự đoán mà nó hoàn toàn tự tin, nhưng điều này có thể khiến nó bỏ lỡ nhiều đối tượng, điều này làm giảm mức recall. Trong khi đó, nó cũng có thể đạt được mức recall rất cao bằng cách dự đoán một bounding box ở hầu hết mọi nơi, nhưng điều này sẽ làm giảm precision.

Hình 4. Độ chính xác và độ thu hồi. Ảnh của tác giả.

Độ chính xác trung bình

Mặc dù độ chính xác (precision) và độ bao phủ (recall) giúp chúng ta hiểu cách một mô hình hoạt động trên các dự đoán riêng lẻ, độ chính xác trung bình (Average precision - AP) có thể cung cấp một cái nhìn rộng hơn. Nó minh họa cách độ chính xác của mô hình thay đổi khi nó cố gắng phát hiện nhiều đối tượng hơn và tóm tắt hiệu suất của nó thành một con số duy nhất.

Để tính điểm chính xác trung bình, trước tiên chúng ta có thể tạo một số liệu giống như đồ thị kết hợp được gọi là đường cong precision-recall (hoặc đường cong PR) cho mỗi loại đối tượng. Đường cong này cho thấy điều gì xảy ra khi mô hình đưa ra nhiều dự đoán hơn. 

Hãy xem xét một tình huống trong đó mô hình bắt đầu bằng cách chỉ phát hiện những đối tượng dễ nhất hoặc rõ ràng nhất. Ở giai đoạn này, độ chính xác cao vì hầu hết các dự đoán đều đúng, nhưng độ phủ thấp vì nhiều đối tượng vẫn bị bỏ sót. Khi mô hình cố gắng phát hiện nhiều đối tượng hơn, bao gồm cả những đối tượng khó hơn hoặc hiếm hơn, nó thường gây ra nhiều lỗi hơn. Điều này làm cho độ chính xác giảm trong khi độ phủ tăng lên.

Độ chính xác trung bình là diện tích dưới đường cong (AUC của đường cong PR). Diện tích lớn hơn có nghĩa là mô hình giữ cho các dự đoán của nó chính xác hơn, ngay cả khi nó phát hiện thêm nhiều đối tượng hơn. AP được tính riêng cho từng nhãn lớp. 

Ví dụ: trong một mô hình có thể phát hiện ô tô, xe máy và người đi bộ, chúng ta có thể tính toán các giá trị AP riêng cho từng loại trong ba loại đó. Điều này giúp chúng ta thấy mô hình phát hiện tốt những đối tượng nào và cần cải thiện ở những điểm nào.

Hình 5. Đường cong PR cho năm lớp khác nhau. (Nguồn)

Độ chính xác trung bình (Mean average precision)

Sau khi tính toán độ chính xác trung bình cho từng lớp đối tượng, chúng ta vẫn cần một điểm số duy nhất phản ánh hiệu suất tổng thể của mô hình trên tất cả các lớp. Điều này có thể đạt được bằng cách sử dụng công thức độ chính xác trung bình (mean average precision). Nó tính trung bình các điểm AP cho mọi danh mục.

Ví dụ: giả sử một mô hình thị giác máy tính như YOLO11 đạt được AP là 0,827 cho ô tô, 0,679 cho xe máy, 0,355 cho xe tải, 0,863 cho xe buýt và 0,982 cho xe đạp. Sử dụng công thức mAP, chúng ta có thể cộng các số này và chia cho tổng số lớp như sau: 

mAP = (0.827 + 0.679 + 0.355 + 0.863 + 0.982) ÷ 5 = 0.7432 ≈ 0.743

Điểm mAP là 0,743 cung cấp một giải pháp đơn giản để đánh giá mức độ hoạt động của mô hình trên tất cả các lớp đối tượng. Một giá trị gần 1 có nghĩa là mô hình chính xác cho hầu hết các danh mục, trong khi giá trị thấp hơn cho thấy nó gặp khó khăn với một số danh mục.

Ý nghĩa của AP và mAP trong thị giác máy tính

Giờ đây, khi đã hiểu rõ hơn về cách AP và mAP được tính toán và các thành phần của chúng, đây là tổng quan về tầm quan trọng của chúng trong thị giác máy tính:

  • AP thấp cho một class cụ thể: AP thấp cho một class duy nhất thường có nghĩa là mô hình gặp khó khăn với class đối tượng cụ thể đó. Điều này có thể là do không đủ dữ liệu huấn luyện hoặc các thách thức trực quan trong hình ảnh, chẳng hạn như bị che khuất.
  • Lỗi định vị: Giá trị mAP cao hơn ở ngưỡng IoU thấp hơn (chẳng hạn như mAP@0.50) kết hợp với sự sụt giảm đáng kể ở ngưỡng IoU cao hơn (chẳng hạn như mAP@0.75) cho thấy rằng mô hình có thể phát hiện các đối tượng nhưng gặp khó khăn trong việc định vị chúng một cách chính xác.
  • Quá khớp (Overfitting): Giá trị mAP cao hơn trên tập dữ liệu huấn luyện nhưng giá trị mAP thấp hơn trên tập dữ liệu validation là một dấu hiệu của quá khớp, làm cho mô hình không đáng tin cậy đối với các hình ảnh mới.

Ứng dụng thực tế của độ chính xác trung bình (mean average precision)

Tiếp theo, hãy khám phá cách các số liệu chính như mAP có thể giúp ích khi xây dựng các trường hợp sử dụng thị giác máy tính thực tế.

Xe tự hành: Tại sao giá trị mAP cao hơn có nghĩa là đường xá an toàn hơn

Khi nói đến xe tự lái, việc phát hiện đối tượng là rất quan trọng để xác định người đi bộ, biển báo đường, người đi xe đạp và vạch kẻ đường. Ví dụ: nếu một đứa trẻ đột ngột chạy qua đường, xe có vài giây để phát hiện đối tượng (đứa trẻ), xác định vị trí của nó, theo dõi chuyển động của nó và thực hiện hành động cần thiết (áp dụng phanh). 

Các mô hình như YOLO11 được thiết kế để phát hiện đối tượng theo thời gian thực trong các tình huống có rủi ro cao như vậy. Trong những trường hợp này, mAP trở thành một thước đo an toàn quan trọng.

Điểm mAP cao đảm bảo hệ thống phát hiện đứa trẻ nhanh chóng, định vị chúng một cách chính xác và kích hoạt phanh với độ trễ tối thiểu. mAP thấp có thể có nghĩa là bỏ lỡ các phát hiện hoặc phân loại sai nguy hiểm, chẳng hạn như nhầm lẫn đứa trẻ với một vật thể nhỏ khác.

Hình 6. Một ví dụ về YOLO11 được sử dụng để phát hiện người đi bộ trên đường.

Sử dụng mAP để phát hiện sản phẩm chính xác

Tương tự, trong bán lẻ, các mô hình phát hiện đối tượng có thể được sử dụng để tự động hóa các tác vụ như theo dõi hàng tồn kho và quy trình thanh toán. Khi khách hàng quét một sản phẩm tại quầy tự thanh toán, lỗi trong quá trình phát hiện có thể gây ra sự khó chịu.

Điểm mAP cao đảm bảo mô hình phân biệt chính xác giữa các sản phẩm tương tự và vẽ các hộp giới hạn chính xác, ngay cả khi các mặt hàng được đóng gói chặt chẽ. Điểm mAP thấp có thể dẫn đến nhầm lẫn. Ví dụ: nếu mô hình nhầm lẫn chai nước cam với chai nước táo tương tự về mặt hình ảnh, nó có thể dẫn đến thanh toán không chính xác và báo cáo hàng tồn kho không chính xác.

Các hệ thống bán lẻ tích hợp với các mô hình như YOLO11 có thể phát hiện sản phẩm trong thời gian thực, kiểm tra chúng so với hàng tồn kho và cập nhật hệ thống backend ngay lập tức. Trong môi trường bán lẻ có nhịp độ nhanh, mAP đóng một vai trò quan trọng trong việc giữ cho các hoạt động chính xác và đáng tin cậy.

Nâng cao độ chính xác chẩn đoán với mAP cao trong lĩnh vực chăm sóc sức khỏe

Cải thiện độ chính xác chẩn đoán trong chăm sóc sức khỏe bắt đầu bằng việc phát hiện chính xác trong chẩn đoán hình ảnh y tế. Các mô hình như YOLO11 có thể giúp các bác sĩ радиолог phát hiện các khối u, gãy xương hoặc các bất thường khác từ các bản quét y tế đó. Ở đây, độ chính xác trung bình (mean average precision) là một chỉ số thiết yếu để đánh giá độ tin cậy lâm sàng của mô hình.

mAP cao chỉ ra rằng mô hình đạt được cả độ recall cao (xác định hầu hết các vấn đề thực tế) và độ precision cao (tránh báo động sai), điều này rất quan trọng trong việc ra quyết định lâm sàng. Ngoài ra, ngưỡng IoU trong chăm sóc sức khỏe thường được đặt rất cao (0,85 hoặc 0,90) để đảm bảo phát hiện cực kỳ chính xác.

Tuy nhiên, điểm mAP thấp có thể gây lo ngại. Ví dụ, nếu một mô hình bỏ sót một khối u, điều này có thể trì hoãn việc chẩn đoán hoặc dẫn đến điều trị không chính xác. 

Ưu và nhược điểm của việc sử dụng mAP

Dưới đây là những ưu điểm chính của việc sử dụng độ chính xác trung bình (mean average precision) để đánh giá các mô hình phát hiện đối tượng:

  • Độ đo tiêu chuẩn hóa: mAP là tiêu chuẩn công nghiệp để đánh giá các mô hình phát hiện đối tượng. Giá trị mAP cho phép so sánh công bằng và nhất quán giữa các mô hình khác nhau.
  • Phản ánh hiệu suất thực tế: mAP cao cho thấy mô hình vượt trội trong việc phát hiện các lớp đối tượng khác nhau và duy trì hiệu suất mạnh mẽ trong các tình huống phức tạp, thực tế.
  • Chẩn đoán theo lớp: Điểm mAP đánh giá hiệu suất phát hiện cho từng lớp riêng lẻ. Điều này giúp dễ dàng xác định các danh mục hoạt động kém (như xe đạp hoặc biển báo đường phố) và tinh chỉnh mô hình cho phù hợp.

Mặc dù có nhiều lợi ích khác nhau khi sử dụng metric mAP, nhưng có một số hạn chế cần xem xét. Dưới đây là một vài yếu tố cần tính đến:

  • Gây khó khăn cho các bên liên quan không chuyên về kỹ thuật: Các nhóm kinh doanh hoặc lâm sàng có thể thấy các giá trị mAP là trừu tượng, không giống như các số liệu trực quan và dễ hiểu hơn.
  • Không phản ánh các ràng buộc thời gian thực: mAP không tính đến tốc độ suy luận hoặc độ trễ, điều này rất quan trọng để triển khai trong các ứng dụng nhạy cảm về thời gian.

Những điều cần nhớ

Chúng ta đã thấy rằng độ chính xác trung bình (mean average precision) không chỉ là một điểm số kỹ thuật mà còn là sự phản ánh tiềm năng hiệu suất thực tế của mô hình. Cho dù là trong một hệ thống xe tự hành hay một hệ thống thanh toán bán lẻ, điểm số mAP cao đóng vai trò là một chỉ số đáng tin cậy về hiệu suất và khả năng sẵn sàng thực tế của mô hình.

Mặc dù mAP là một số liệu thiết yếu và có tác động lớn, nhưng nó nên được xem như là một phần của chiến lược đánh giá toàn diện. Đối với các ứng dụng quan trọng như chăm sóc sức khỏe và lái xe tự động, chỉ dựa vào mAP là không đủ. 

Các yếu tố bổ sung như tốc độ suy luận (mô hình đưa ra dự đoán nhanh như thế nào), kích thước mô hình (ảnh hưởng đến việc triển khai trên các thiết bị biên) và phân tích lỗi định tính (hiểu các loại lỗi mà mô hình mắc phải) cũng phải được xem xét để đảm bảo hệ thống an toàn, hiệu quả và thực sự phù hợp với mục đích sử dụng.

Tham gia cộng đồng đang phát triển của chúng tôi và kho lưu trữ GitHub để tìm hiểu thêm về thị giác máy tính. Khám phá các trang giải pháp của chúng tôi để tìm hiểu về các ứng dụng của thị giác máy tính trong nông nghiệpAI trong logistics. Xem các tùy chọn cấp phép của chúng tôi để bắt đầu với mô hình thị giác máy tính của riêng bạn ngay hôm nay!

Hãy cùng nhau xây dựng tương lai
của AI!

Bắt đầu hành trình của bạn với tương lai của học máy

Bắt đầu miễn phí
Đã sao chép liên kết vào clipboard