Độ chính xác trung bình (mAP) trong phát hiện đối tượng

Abirami Vina

6 phút đọc

Ngày 28 tháng 8 năm 2025

Hiểu về Độ chính xác trung bình (mAP) trong Phát hiện đối tượng. Tìm hiểu ý nghĩa, cách tính và lý do tại sao mAP là chìa khóa để đánh giá hiệu suất mô hình.

Việc áp dụng AI đang phát triển nhanh chóng và AI đang được tích hợp vào nhiều cải tiến khác nhau, từ xe tự lái đến hệ thống bán lẻ có khả năng nhận dạng sản phẩm trên kệ. Những công nghệ này dựa trên thị giác máy tính , một nhánh của trí tuệ nhân tạo (AI) cho phép máy móc phân tích dữ liệu hình ảnh. 

Một chỉ số đánh giá quan trọng được sử dụng để đo lường độ chính xác của các hệ thống và thuật toán thị giác máy tính là độ chính xác trung bình (mAP). Chỉ số mAP cho biết mức độ chính xác của dự đoán của mô hình Vision AI so với kết quả thực tế.

Một tác vụ thị giác máy tính phổ biến là phát hiện đối tượng, trong đó mô hình xác định nhiều đối tượng trong một hình ảnh và vẽ các khung giới hạn xung quanh chúng. mAP là chỉ số tiêu chuẩn được sử dụng để đánh giá hiệu suất của các mô hình phát hiện đối tượng và được sử dụng rộng rãi để đánh giá chuẩn các mô hình học sâu như Ultralytics YOLO11 .

Trong bài viết này, chúng ta sẽ xem cách tính độ chính xác trung bình và lý do tại sao nó lại quan trọng đối với bất kỳ ai đang đào tạo hoặc đánh giá các mô hình phát hiện đối tượng. Hãy bắt đầu thôi!

Độ chính xác trung bình (mAP) là gì?

Độ chính xác trung bình (mean average precision) là điểm số thể hiện mức độ chính xác của một mô hình học sâu khi thực hiện các tác vụ liên quan đến truy xuất thông tin thị giác, chẳng hạn như phát hiện và nhận dạng các đối tượng khác nhau trong một hình ảnh. Ví dụ, hãy xem xét một mô hình phát hiện đối tượng phân tích một bức ảnh có hình chó, mèo và ô tô. Một mô hình đáng tin cậy có thể thực hiện phát hiện đối tượng bằng cách nhận dạng từng đối tượng và vẽ các hộp giới hạn và nhãn xung quanh, làm nổi bật vị trí và bản chất của đối tượng.

mAP cho biết mô hình thực hiện nhiệm vụ này tốt như thế nào trên nhiều hình ảnh và các loại đối tượng khác nhau. Nó kiểm tra xem mô hình có nhận dạng chính xác từng đối tượng và vị trí của chúng trong ảnh hay không. Điểm số dao động từ 0 đến 1, trong đó 1 nghĩa là mô hình đã tìm thấy mọi thứ một cách hoàn hảo, và 0 nghĩa là không phát hiện được bất kỳ đối tượng nào.

Các khái niệm chính trong độ chính xác trung bình (mAP)

Trước khi khám phá các khái niệm đằng sau độ chính xác trung bình trong học máy, chúng ta hãy hiểu rõ hơn về hai thuật ngữ cơ bản: sự thật cơ bản và dự đoán. 

Dữ liệu tham chiếu chính xác, trong đó các đối tượng và vị trí của chúng trong ảnh được con người dán nhãn cẩn thận thông qua một quy trình gọi là chú thích. Trong khi đó, dự đoán là kết quả mà các mô hình AI đưa ra sau khi phân tích hình ảnh. Bằng cách so sánh dự đoán của mô hình AI với dữ liệu tham chiếu chính xác, chúng ta có thể đo lường mức độ chính xác của mô hình trong việc đưa ra kết quả chính xác. 

Hình 1. Mô hình dự đoán và khung giới hạn thực tế. Hình ảnh của tác giả.

Ma trận nhầm lẫn

Ma trận nhầm lẫn thường được sử dụng để đánh giá độ chính xác của mô hình phát hiện đối tượng. Đây là một bảng cho thấy mức độ khớp giữa các dự đoán của mô hình với kết quả thực tế (giá trị thực tế). Từ bảng này, chúng ta có thể phân tích bốn thành phần hoặc kết quả chính: kết quả dương tính thật, kết quả dương tính giả, kết quả âm tính giả và kết quả âm tính thật.

Sau đây là những thành phần này thể hiện trong ma trận nhầm lẫn:

  • Dương tính thực (TP): Mô hình phát hiện chính xác một vật thể và vị trí của nó.
  • Dương tính giả (FP): Mô hình đã phát hiện nhưng không chính xác.
  • Âm tính giả (FN): Một vật thể thực sự có trong hình ảnh nhưng mô hình không phát hiện ra.
  • Âm tính thực sự (TN): Âm tính thực sự xảy ra khi mô hình xác định chính xác sự vắng mặt của một đối tượng.

Tiêu cực thực sự không thường được sử dụng trong phát hiện đối tượng, vì chúng ta thường bỏ qua nhiều vùng trống trong ảnh. Tuy nhiên, nó rất cần thiết trong các tác vụ thị giác máy tính khác, chẳng hạn như phân loại ảnh , trong đó mô hình gán nhãn cho ảnh. Ví dụ: nếu nhiệm vụ là phát hiện xem ảnh có mèo hay không, và mô hình xác định chính xác "không có mèo" khi ảnh không có mèo, thì đó là tiêu cực thực sự.

Hình 2. Kết quả phân loại trong ma trận nhầm lẫn. Hình ảnh của tác giả.

Giao điểm qua Union (IoU)

Một chỉ số quan trọng khác trong việc đánh giá các mô hình phát hiện đối tượng là Giao điểm trên Hợp nhất (IoU). Đối với các mô hình Vision AI như vậy, việc chỉ phát hiện sự hiện diện của đối tượng trong ảnh là chưa đủ; nó còn cần xác định vị trí của đối tượng trong ảnh để vẽ các khung giới hạn. 

Chỉ số IoU đo lường mức độ khớp giữa hộp dự đoán của mô hình với hộp thực tế (giá trị thực tế). Điểm số nằm trong khoảng từ 0 đến 1, trong đó 1 nghĩa là khớp hoàn toàn và 0 nghĩa là không có sự trùng lặp nào.

Ví dụ, IoU cao hơn (như 0,80 hoặc 0,85) có nghĩa là hộp dự đoán gần khớp với hộp thực tế, cho thấy khả năng định vị chính xác. IoU thấp hơn (như 0,30 hoặc 0,25) có nghĩa là mô hình không định vị chính xác vật thể.

Để xác định xem phát hiện có thành công hay không, chúng tôi sử dụng các ngưỡng khác nhau. Ngưỡng IoU phổ biến là 0,5, nghĩa là hộp dự đoán phải trùng với hộp thực tế ít nhất 50% mới được tính là dương tính thật. Bất kỳ sự trùng lặp nào dưới ngưỡng này được coi là dương tính giả.

Hình 3. Hiểu về giao điểm trên hợp. Hình ảnh của tác giả.

Độ chính xác và khả năng thu hồi

Cho đến nay, chúng ta đã tìm hiểu một số chỉ số đánh giá cơ bản để hiểu rõ hiệu suất của các mô hình phát hiện đối tượng. Dựa trên đó, hai trong số những chỉ số quan trọng nhất là độ chính xác (precision) và độ thu hồi (recall) . Chúng cho chúng ta một bức tranh rõ ràng về độ chính xác của các phát hiện của mô hình. Hãy cùng xem xét chúng là gì.

Giá trị độ chính xác cho chúng ta biết có bao nhiêu dự đoán của mô hình thực sự chính xác. Nó trả lời câu hỏi: trong số tất cả các vật thể mà mô hình tuyên bố phát hiện được, có bao nhiêu vật thể thực sự tồn tại?

Mặt khác, giá trị thu hồi đo lường mức độ mô hình tìm thấy tất cả các đối tượng thực tế có trong ảnh. Nó trả lời câu hỏi: trong số tất cả các đối tượng thực tế có trong ảnh, mô hình đã phát hiện chính xác bao nhiêu đối tượng?

Kết hợp với nhau, độ chính xác và độ thu hồi cho chúng ta bức tranh rõ nét hơn về hiệu suất của một mô hình. Ví dụ, nếu một mô hình dự đoán 10 chiếc ô tô trong một hình ảnh và 9 trong số đó thực sự là ô tô, thì độ chính xác của mô hình là 90% (một dự đoán dương). 

Hai thước đo đánh giá này thường đi kèm với một sự đánh đổi: một mô hình có thể đạt được độ chính xác cao bằng cách chỉ đưa ra những dự đoán mà nó hoàn toàn tự tin, nhưng điều này có thể khiến nó bỏ sót nhiều đối tượng, làm giảm mức độ thu hồi. Đồng thời, nó cũng có thể đạt được độ thu hồi rất cao bằng cách dự đoán một hộp giới hạn gần như ở mọi nơi, nhưng điều này sẽ làm giảm độ chính xác.

Hình 4. Độ chính xác và độ thu hồi. Hình ảnh của tác giả.

Độ chính xác trung bình

Trong khi độ chính xác và độ thu hồi giúp chúng ta hiểu hiệu suất của mô hình trên từng dự đoán riêng lẻ, độ chính xác trung bình (AP) có thể cung cấp cái nhìn tổng quan hơn. Nó minh họa cách độ chính xác của mô hình thay đổi khi nó cố gắng phát hiện nhiều đối tượng hơn và tóm tắt hiệu suất của nó thành một con số duy nhất.

Để tính điểm chính xác trung bình, trước tiên chúng ta có thể tạo một số liệu dạng đồ thị kết hợp, được gọi là đường cong chính xác-thu hồi (hay đường cong PR) cho từng loại đối tượng. Đường cong này cho thấy điều gì xảy ra khi mô hình đưa ra nhiều dự đoán hơn. 

Hãy xem xét một kịch bản trong đó mô hình bắt đầu bằng cách chỉ phát hiện những đối tượng dễ nhất hoặc dễ nhận biết nhất. Ở giai đoạn này, độ chính xác cao vì hầu hết các dự đoán đều chính xác, nhưng độ hồi tưởng lại thấp vì nhiều đối tượng vẫn bị bỏ sót. Khi mô hình cố gắng phát hiện thêm nhiều đối tượng, bao gồm cả những đối tượng khó hơn hoặc hiếm hơn, nó thường phát sinh thêm lỗi. Điều này khiến độ chính xác giảm trong khi độ hồi tưởng tăng.

Độ chính xác trung bình là diện tích dưới đường cong (AUC của đường cong PR). Diện tích càng lớn đồng nghĩa với việc mô hình càng chính xác trong việc duy trì dự đoán, ngay cả khi phát hiện nhiều đối tượng hơn. AP được tính riêng cho từng nhãn lớp. 

Ví dụ, trong một mô hình có thể phát hiện ô tô, xe đạp và người đi bộ, chúng ta có thể tính toán giá trị AP riêng cho từng loại trong ba loại này. Điều này giúp chúng ta thấy được mô hình phát hiện tốt những đối tượng nào và những điểm nào cần cải thiện.

Hình 5. Đường cong PR cho năm lớp khác nhau. ( Nguồn )

Độ chính xác trung bình

Sau khi tính toán độ chính xác trung bình cho từng lớp đối tượng, chúng ta vẫn cần một điểm số duy nhất phản ánh hiệu suất tổng thể của mô hình trên tất cả các lớp. Điều này có thể đạt được bằng cách sử dụng công thức độ chính xác trung bình . Công thức này tính trung bình điểm AP cho từng hạng mục.

Ví dụ, giả sử một mô hình thị giác máy tính như YOLO11 đạt được AP là 0,827 cho ô tô, 0,679 cho xe máy, 0,355 cho xe tải, 0,863 cho xe buýt và 0,982 cho xe đạp. Sử dụng công thức mAP, chúng ta có thể cộng các số này và chia cho tổng số lớp như sau: 

mAP = (0,827 + 0,679 + 0,355 + 0,863 + 0,982) ÷ 5 = 0,7432 ≈ 0,743

Điểm mAP 0,743 cung cấp một giải pháp đơn giản để đánh giá hiệu suất của mô hình trên tất cả các lớp đối tượng. Giá trị gần bằng 1 có nghĩa là mô hình chính xác với hầu hết các danh mục, trong khi giá trị thấp hơn cho thấy mô hình gặp khó khăn với một số danh mục.

Tầm quan trọng của AP và mAP trong thị giác máy tính

Bây giờ chúng ta đã hiểu rõ hơn về cách tính AP và mAP cũng như các thành phần của chúng, sau đây là tổng quan về ý nghĩa của chúng trong thị giác máy tính:

  • AP thấp cho một lớp cụ thể: AP thấp cho một lớp duy nhất thường có nghĩa là mô hình gặp khó khăn với lớp đối tượng cụ thể đó. Điều này có thể do dữ liệu huấn luyện không đủ hoặc các vấn đề về hình ảnh, chẳng hạn như che khuất.
  • Lỗi định vị: Giá trị mAP cao hơn ở ngưỡng IoU thấp hơn (chẳng hạn như mAP@0,50) kết hợp với mức giảm đáng kể ở ngưỡng IoU cao hơn (chẳng hạn như mAP@0,75) cho thấy mô hình có thể phát hiện vật thể nhưng gặp khó khăn trong việc định vị chúng một cách chính xác.
  • Quá khớp: Giá trị mAP cao hơn trên tập dữ liệu đào tạo nhưng giá trị mAP thấp hơn trên tập dữ liệu xác thực là dấu hiệu của quá khớp, khiến mô hình không đáng tin cậy đối với hình ảnh mới.

Ứng dụng thực tế của độ chính xác trung bình

Tiếp theo, hãy cùng khám phá cách các số liệu quan trọng như mAP có thể giúp ích khi xây dựng các trường hợp sử dụng thị giác máy tính trong thế giới thực.

Xe tự hành: Tại sao giá trị mAP cao hơn có nghĩa là đường sá an toàn hơn

Khi nói đến xe tự lái , phát hiện vật thể là yếu tố then chốt để xác định người đi bộ, biển báo giao thông, người đi xe đạp và vạch kẻ đường. Ví dụ, nếu một đứa trẻ bất ngờ chạy qua đường, xe có vài giây để phát hiện vật thể (trẻ em), xác định vị trí, theo dõi chuyển động và thực hiện hành động cần thiết (phanh). 

Các mô hình như YOLO11 được thiết kế để phát hiện vật thể theo thời gian thực trong những tình huống nguy hiểm như vậy. Trong những trường hợp này, mAP trở thành một biện pháp an toàn quan trọng.

Điểm mAP cao đảm bảo hệ thống phát hiện trẻ nhanh chóng, định vị chính xác và kích hoạt phanh với độ trễ tối thiểu. Điểm mAP thấp có thể dẫn đến việc bỏ sót phát hiện hoặc phân loại sai nguy hiểm, chẳng hạn như nhầm lẫn trẻ với một vật nhỏ khác.

Hình 6. Một ví dụ về việc sử dụng YOLO11 để phát hiện người đi bộ trên đường. ( Nguồn )

Sử dụng mAP để phát hiện sản phẩm chính xác

Tương tự, trong bán lẻ , các mô hình phát hiện đối tượng có thể được sử dụng để tự động hóa các tác vụ như theo dõi kho và quy trình thanh toán. Khi khách hàng quét sản phẩm tại quầy tự thanh toán, một lỗi phát hiện có thể gây ra sự khó chịu.

Điểm mAP cao đảm bảo mô hình phân biệt chính xác các sản phẩm tương tự và vẽ các khung giới hạn chính xác, ngay cả khi các sản phẩm được đóng gói chặt chẽ. Điểm mAP thấp có thể dẫn đến nhầm lẫn. Ví dụ, nếu mô hình nhầm một chai nước cam với một chai nước táo trông tương tự, điều này có thể dẫn đến việc lập hóa đơn không chính xác và báo cáo tồn kho không chính xác.

Các hệ thống bán lẻ tích hợp với các mô hình như YOLO11 có thể phát hiện sản phẩm theo thời gian thực, đối chiếu với hàng tồn kho và cập nhật hệ thống phụ trợ ngay lập tức. Trong môi trường bán lẻ năng động, mAP đóng vai trò quan trọng trong việc duy trì hoạt động chính xác và đáng tin cậy.

Nâng cao độ chính xác chẩn đoán với mAP cao trong chăm sóc sức khỏe

Việc cải thiện độ chính xác chẩn đoán trong chăm sóc sức khỏe bắt đầu từ việc phát hiện chính xác trong hình ảnh y tế . Các mô hình như YOLO11 có thể giúp các bác sĩ X-quang phát hiện khối u, gãy xương hoặc các bất thường khác từ các hình ảnh chụp cắt lớp y tế đó. Trong đó, độ chính xác trung bình là một thước đo thiết yếu để đánh giá độ tin cậy lâm sàng của một mô hình.

Chỉ số mAP cao cho thấy mô hình đạt được cả khả năng thu hồi cao (xác định các vấn đề thực tế nhất) và độ chính xác cao (tránh báo động giả), điều này rất quan trọng trong việc ra quyết định lâm sàng. Ngoài ra, ngưỡng IoU trong chăm sóc sức khỏe thường được đặt rất cao (0,85 hoặc 0,90) để đảm bảo phát hiện cực kỳ chính xác.

Tuy nhiên, điểm mAP thấp có thể gây lo ngại. Giả sử mô hình bỏ sót khối u, điều này có thể làm chậm trễ chẩn đoán hoặc dẫn đến điều trị không đúng cách. 

Ưu và nhược điểm của việc sử dụng mAP

Sau đây là những lợi thế chính của việc sử dụng độ chính xác trung bình để đánh giá các mô hình phát hiện đối tượng:

  • Chỉ số chuẩn hóa: mAP là tiêu chuẩn công nghiệp để đánh giá các mô hình phát hiện đối tượng. Giá trị mAP cho phép so sánh công bằng và nhất quán giữa các mô hình khác nhau.
  • Phản ánh hiệu suất thực tế: mAP cao cho thấy mô hình có khả năng phát hiện nhiều loại đối tượng khác nhau và duy trì hiệu suất mạnh mẽ trong các tình huống phức tạp trong thực tế.
  • Chẩn đoán theo lớp: Điểm mAP đánh giá hiệu suất phát hiện của từng lớp riêng lẻ. Điều này giúp dễ dàng xác định các hạng mục kém hiệu quả (như xe đạp hoặc biển báo đường phố) và tinh chỉnh mô hình cho phù hợp.

Mặc dù việc sử dụng số liệu mAP mang lại nhiều lợi ích, nhưng vẫn có một số hạn chế cần cân nhắc. Dưới đây là một số yếu tố cần lưu ý:

  • Khó khăn đối với các bên liên quan không chuyên về công nghệ: Các nhóm kinh doanh hoặc lâm sàng có thể thấy giá trị mAP trừu tượng, không giống như các số liệu trực quan và dễ hiểu hơn.
  • Không phản ánh các ràng buộc thời gian thực: mAP không tính đến tốc độ suy luận hoặc độ trễ, vốn rất quan trọng khi triển khai trong các ứng dụng nhạy cảm với thời gian.

Những điểm chính

Chúng tôi đã thấy rằng độ chính xác trung bình không chỉ là điểm số kỹ thuật mà còn phản ánh hiệu suất thực tế tiềm năng của mô hình. Cho dù trong hệ thống xe tự hành hay quầy thanh toán bán lẻ, điểm mAP cao đóng vai trò là chỉ báo đáng tin cậy về hiệu suất và mức độ sẵn sàng thực tế của mô hình.

Mặc dù mAP là một chỉ số thiết yếu và có tác động lớn, nhưng nó cần được xem xét như một phần của chiến lược đánh giá toàn diện. Đối với các ứng dụng quan trọng như chăm sóc sức khỏe và xe tự hành, chỉ dựa vào mAP là chưa đủ. 

Các yếu tố bổ sung như tốc độ suy luận (mô hình đưa ra dự đoán nhanh như thế nào), quy mô mô hình (tác động đến việc triển khai trên các thiết bị biên) và phân tích lỗi định tính (hiểu các loại lỗi mà mô hình mắc phải) cũng phải được xem xét để đảm bảo hệ thống an toàn, hiệu quả và thực sự phù hợp với mục đích dự định.

Tham gia cộng đồng đang phát triển của chúng tôi và kho lưu trữ GitHub để tìm hiểu thêm về thị giác máy tính. Khám phá các trang giải pháp của chúng tôi để tìm hiểu về các ứng dụng của thị giác máy tính trong nông nghiệpAI trong hậu cần . Hãy xem các tùy chọn cấp phép của chúng tôi để bắt đầu xây dựng mô hình thị giác máy tính của riêng bạn ngay hôm nay!

Hãy cùng xây dựng tương lai
của AI cùng nhau!

Bắt đầu hành trình của bạn với tương lai của máy học

Bắt đầu miễn phí
Liên kết đã được sao chép vào clipboard