Hiểu độ chính xác trung bình ( mAP ) trong Phát hiện Đối tượng. Tìm hiểu ý nghĩa, cách tính và lý do của nó mAP là chìa khóa để đánh giá hiệu suất của mô hình.
Hiểu độ chính xác trung bình ( mAP ) trong Phát hiện Đối tượng. Tìm hiểu ý nghĩa, cách tính và lý do của nó mAP là chìa khóa để đánh giá hiệu suất của mô hình.
Việc ứng dụng AI đang phát triển nhanh chóng và AI đang được tích hợp vào nhiều đổi mới khác nhau, từ xe tự lái đến hệ thống bán lẻ có thể xác định sản phẩm trên kệ. Các công nghệ này dựa vào thị giác máy tính, một nhánh của trí tuệ nhân tạo (AI) cho phép máy móc phân tích dữ liệu trực quan.
Một số liệu đánh giá quan trọng được sử dụng để đo độ chính xác của các hệ thống và thuật toán thị giác máy tính là độ chính xác trung bình ( mAP ). Các mAP Chỉ số này cho biết mức độ chính xác của dự đoán của mô hình Vision AI so với kết quả thực tế.
Một nhiệm vụ phổ biến của thị giác máy tính là phát hiện đối tượng, trong đó mô hình sẽ xác định nhiều đối tượng trong một hình ảnh và vẽ các hộp giới hạn xung quanh chúng. mAP là số liệu chuẩn được sử dụng để đánh giá hiệu suất của các mô hình phát hiện đối tượng và được sử dụng rộng rãi để đánh giá chuẩn các mô hình học sâu như Ultralytics YOLO11 .
Trong bài viết này, chúng ta sẽ xem độ chính xác trung bình (mean average precision) được tính như thế nào và tại sao nó lại cần thiết cho bất kỳ ai huấn luyện hoặc đánh giá các mô hình phát hiện đối tượng. Hãy bắt đầu!
Độ chính xác trung bình là một điểm số cho thấy mức độ chính xác của một mô hình deep learning khi thực hiện các tác vụ liên quan đến truy xuất thông tin trực quan, chẳng hạn như phát hiện và xác định các đối tượng khác nhau trong một hình ảnh. Ví dụ: hãy xem xét một mô hình phát hiện đối tượng phân tích một bức ảnh có chứa một con chó, một con mèo và một chiếc ô tô. Một mô hình đáng tin cậy có thể thực hiện phát hiện đối tượng bằng cách nhận dạng từng đối tượng và vẽ các khung giới hạn và nhãn xung quanh nó, làm nổi bật vị trí và đối tượng đó là gì.
mAP cho biết mô hình thực hiện nhiệm vụ này tốt như thế nào trên nhiều hình ảnh và các loại đối tượng khác nhau. Nó kiểm tra xem mô hình có nhận dạng chính xác từng đối tượng và vị trí của chúng trong ảnh hay không. Điểm số dao động từ 0 đến 1, trong đó 1 nghĩa là mô hình đã tìm thấy mọi thứ một cách hoàn hảo, và 0 nghĩa là mô hình không tìm thấy. detect bất kỳ đồ vật nào.
Trước khi khám phá các khái niệm đằng sau độ chính xác trung bình (mean average precision) trong học máy, hãy hiểu rõ hơn về hai thuật ngữ cơ bản: ground truth (sự thật cơ bản) và predictions (dự đoán).
Ground truth đề cập đến dữ liệu tham chiếu chính xác, trong đó các đối tượng và vị trí của chúng trong hình ảnh được con người gắn nhãn cẩn thận thông qua một quy trình gọi là chú thích. Trong khi đó, các dự đoán là kết quả mà các mô hình AI đưa ra sau khi phân tích một hình ảnh. Bằng cách so sánh các dự đoán của mô hình AI với ground truth, chúng ta có thể đo lường mức độ gần đúng của mô hình so với kết quả chính xác.

Ma trận nhầm lẫn (Confusion matrix) thường được sử dụng để hiểu độ chính xác của mô hình phát hiện đối tượng. Đó là một bảng cho thấy các dự đoán của mô hình khớp với các câu trả lời đúng thực tế (ground truth) như thế nào. Từ bảng này, chúng ta có thể có được sự phân tích chi tiết về bốn thành phần hoặc kết quả chính: true positives, false positives, false negatives và true negatives.
Dưới đây là ý nghĩa của các thành phần này trong ma trận nhầm lẫn:
Tiêu cực thực sự không thường được sử dụng trong phát hiện đối tượng, vì chúng ta thường bỏ qua nhiều vùng trống trong ảnh. Tuy nhiên, nó rất cần thiết trong các tác vụ thị giác máy tính khác, chẳng hạn như phân loại ảnh , trong đó mô hình gán nhãn cho ảnh. Ví dụ, nếu tác vụ là detect cho dù hình ảnh có mèo hay không và mô hình xác định đúng "không có mèo" khi hình ảnh không có mèo, thì đó là kết quả âm tính thực sự.

Một số liệu quan trọng khác trong việc đánh giá các mô hình phát hiện đối tượng là Giao điểm trên Hợp nhất ( IoU ). Đối với các mô hình Vision AI như vậy, việc chỉ phát hiện sự hiện diện của một đối tượng trong hình ảnh là không đủ; nó còn cần xác định vị trí của đối tượng trong hình ảnh để vẽ các hộp giới hạn.
Các IoU Chỉ số đo lường mức độ khớp giữa hộp dự đoán của mô hình với hộp thực tế (giá trị thực tế). Điểm số nằm trong khoảng từ 0 đến 1, trong đó 1 nghĩa là khớp hoàn toàn và 0 nghĩa là không có sự trùng lặp nào.
Ví dụ, một cao hơn IoU (như 0,80 hoặc 0,85) có nghĩa là hộp dự đoán khớp chặt với hộp thực tế, cho thấy vị trí chính xác. Thấp hơn IoU (như 0,30 hoặc 0,25) có nghĩa là mô hình không xác định chính xác vị trí của vật thể.
Để xác định xem việc phát hiện có thành công hay không, chúng tôi sử dụng các ngưỡng khác nhau. Một điểm chung IoU Ngưỡng là 0,5, nghĩa là hộp dự đoán phải trùng với hộp thực tế ít nhất 50% mới được tính là dương tính thật. Bất kỳ sự trùng lặp nào dưới ngưỡng này được coi là dương tính giả.

Cho đến nay, chúng ta đã khám phá một số số liệu đánh giá cơ bản để hiểu hiệu suất của các mô hình phát hiện đối tượng. Dựa trên điều này, hai trong số các số liệu quan trọng nhất là độ chính xác (precision) và độ phủ (recall). Chúng cung cấp cho chúng ta một bức tranh rõ ràng về độ chính xác của các phát hiện của mô hình. Hãy xem chúng là gì.
Giá trị độ chính xác cho chúng ta biết có bao nhiêu dự đoán của mô hình thực sự chính xác. Nó trả lời câu hỏi: trong số tất cả các đối tượng mà mô hình tuyên bố detect , thực sự có bao nhiêu người ở đó?
Mặt khác, giá trị thu hồi đo lường mức độ mô hình tìm thấy tất cả các đối tượng thực tế có trong ảnh. Nó trả lời câu hỏi: trong số tất cả các đối tượng thực tế có trong ảnh, có bao nhiêu đối tượng được mô hình nhận dạng chính xác? detect ?
Cùng với nhau, độ chính xác (precision) và độ phủ (recall) cho chúng ta một bức tranh rõ ràng hơn về hiệu suất của mô hình. Ví dụ: nếu một mô hình dự đoán 10 chiếc xe hơi trong một hình ảnh và 9 trong số đó thực sự là xe hơi, thì nó có độ chính xác là 90% (một dự đoán dương tính).
Hai số liệu đánh giá này thường liên quan đến sự đánh đổi: một mô hình có thể đạt được giá trị precision cao bằng cách chỉ đưa ra các dự đoán mà nó hoàn toàn tự tin, nhưng điều này có thể khiến nó bỏ lỡ nhiều đối tượng, điều này làm giảm mức recall. Trong khi đó, nó cũng có thể đạt được mức recall rất cao bằng cách dự đoán một bounding box ở hầu hết mọi nơi, nhưng điều này sẽ làm giảm precision.

Trong khi độ chính xác và khả năng thu hồi giúp chúng ta hiểu cách một mô hình thực hiện trên các dự đoán riêng lẻ, Độ chính xác trung bình ( AP ) có thể cung cấp một cái nhìn rộng hơn. Nó minh họa cách độ chính xác của mô hình thay đổi khi nó cố gắng detect nhiều đối tượng hơn và tóm tắt hiệu suất của nó thành một con số duy nhất.
Để tính điểm chính xác trung bình, trước tiên chúng ta có thể tạo một số liệu giống như đồ thị kết hợp được gọi là đường cong precision-recall (hoặc đường cong PR) cho mỗi loại đối tượng. Đường cong này cho thấy điều gì xảy ra khi mô hình đưa ra nhiều dự đoán hơn.
Hãy xem xét một kịch bản trong đó mô hình bắt đầu bằng cách chỉ phát hiện những đối tượng dễ nhất hoặc dễ nhận biết nhất. Ở giai đoạn này, độ chính xác cao vì hầu hết các dự đoán đều chính xác, nhưng độ nhớ lại thấp vì nhiều đối tượng vẫn bị bỏ sót. Khi mô hình cố gắng detect Càng nhiều đối tượng, kể cả những đối tượng khó hơn hoặc hiếm hơn, thường càng gây ra nhiều lỗi hơn. Điều này khiến độ chính xác giảm trong khi độ thu hồi tăng.
Độ chính xác trung bình là diện tích dưới đường cong (AUC của đường cong PR). Diện tích càng lớn thì mô hình càng chính xác trong việc duy trì dự đoán, ngay cả khi phát hiện nhiều đối tượng hơn. AP được tính riêng cho từng nhãn lớp.
Ví dụ, trong một mô hình có thể detect ô tô, xe đạp và người đi bộ, chúng ta có thể tính toán AP giá trị riêng lẻ cho từng loại trong ba loại đó. Điều này giúp chúng ta thấy được mô hình phát hiện tốt những đối tượng nào và những điểm nào cần cải thiện.

Sau khi tính toán độ chính xác trung bình cho từng lớp đối tượng, chúng ta vẫn cần một điểm số duy nhất phản ánh hiệu suất tổng thể của mô hình trên tất cả các lớp. Điều này có thể đạt được bằng cách sử dụng công thức độ chính xác trung bình . Công thức này tính trung bình AP điểm cho từng hạng mục.
Ví dụ, chúng ta hãy giả sử một mô hình thị giác máy tính như YOLO11 đạt được một AP của 0,827 đối với ô tô, 0,679 đối với xe máy, 0,355 đối với xe tải, 0,863 đối với xe buýt và 0,982 đối với xe đạp. Sử dụng mAP công thức, chúng ta có thể cộng các số này và chia cho tổng số lớp như sau:
mAP = (0,827 + 0,679 + 0,355 + 0,863 + 0,982) ÷ 5 = 0,7432 ≈ 0,743
Các mAP Điểm 0,743 cung cấp một giải pháp đơn giản để đánh giá hiệu suất của mô hình trên tất cả các lớp đối tượng. Giá trị gần 1 có nghĩa là mô hình chính xác với hầu hết các danh mục, trong khi giá trị thấp hơn cho thấy mô hình gặp khó khăn với một số danh mục.
Bây giờ chúng ta đã hiểu rõ hơn về cách AP Và mAP được tính toán và các thành phần của chúng là gì, sau đây là tổng quan về ý nghĩa của chúng trong thị giác máy tính:
Tiếp theo, chúng ta hãy khám phá các số liệu chính như mAP có thể giúp ích khi xây dựng các trường hợp sử dụng thị giác máy tính trong thế giới thực.
Khi nói đến xe tự lái , tính năng phát hiện vật thể rất quan trọng để nhận dạng người đi bộ, biển báo giao thông, người đi xe đạp và vạch kẻ đường. Ví dụ, nếu một đứa trẻ đột nhiên chạy qua đường, xe có vài giây để... detect đối tượng (trẻ em), xác định vị trí của nó, track chuyển động của nó và thực hiện hành động cần thiết (bấm phanh).
Các mô hình như YOLO11 được thiết kế để phát hiện đối tượng theo thời gian thực trong những tình huống có rủi ro cao như vậy. Trong những trường hợp này, mAP trở thành biện pháp an toàn quan trọng.
Một cao mAP điểm số đảm bảo hệ thống phát hiện trẻ em nhanh chóng, định vị chính xác và kích hoạt phanh với độ trễ tối thiểu. Mức thấp mAP có thể có nghĩa là bỏ sót phát hiện hoặc phân loại sai nguy hiểm, chẳng hạn như nhầm lẫn trẻ với một vật nhỏ khác.

Tương tự, trong bán lẻ, các mô hình phát hiện đối tượng có thể được sử dụng để tự động hóa các tác vụ như theo dõi hàng tồn kho và quy trình thanh toán. Khi khách hàng quét một sản phẩm tại quầy tự thanh toán, lỗi trong quá trình phát hiện có thể gây ra sự khó chịu.
Một cao mAP điểm số đảm bảo mô hình phân biệt chính xác giữa các sản phẩm tương tự và vẽ các hộp giới hạn chính xác, ngay cả khi các mặt hàng được đóng gói chặt chẽ. Thấp mAP Điểm số có thể dẫn đến nhầm lẫn. Ví dụ, nếu mô hình nhầm lẫn một chai nước cam với một chai nước táo có hình dáng tương tự, điều này có thể dẫn đến việc lập hóa đơn không chính xác và báo cáo tồn kho không chính xác.
Hệ thống bán lẻ tích hợp với các mô hình như YOLO11 Có thể detect sản phẩm theo thời gian thực, kiểm tra chúng với hàng tồn kho và cập nhật hệ thống phụ trợ ngay lập tức. Trong môi trường bán lẻ nhịp độ nhanh, mAP đóng vai trò quan trọng trong việc duy trì hoạt động chính xác và đáng tin cậy.
Cải thiện độ chính xác chẩn đoán trong chăm sóc sức khỏe bắt đầu bằng việc phát hiện chính xác trong hình ảnh y tế . Các mô hình như YOLO11 có thể giúp các bác sĩ X-quang phát hiện khối u, gãy xương hoặc các bất thường khác từ các lần chụp cắt lớp y tế đó. Ở đây, độ chính xác trung bình là một thước đo thiết yếu để đánh giá độ tin cậy lâm sàng của mô hình.
Một cao mAP cho thấy mô hình đạt được cả khả năng thu hồi cao (xác định các vấn đề thực tế nhất) và độ chính xác cao (tránh báo động giả), điều này rất quan trọng trong việc ra quyết định lâm sàng. Ngoài ra, IoU ngưỡng trong chăm sóc sức khỏe thường được đặt rất cao (0,85 hoặc 0,90) để đảm bảo phát hiện cực kỳ chính xác.
Tuy nhiên, một mức thấp mAP Điểm số có thể gây ra lo ngại. Giả sử một mô hình bỏ sót khối u; nó có thể làm chậm trễ việc chẩn đoán hoặc dẫn đến điều trị không đúng cách.
Dưới đây là những ưu điểm chính của việc sử dụng độ chính xác trung bình (mean average precision) để đánh giá các mô hình phát hiện đối tượng:
Mặc dù có nhiều lợi ích khi sử dụng mAP Hệ mét, có một số hạn chế cần cân nhắc. Dưới đây là một số yếu tố cần lưu ý:
Chúng tôi đã thấy rằng độ chính xác trung bình không chỉ là một điểm số kỹ thuật mà còn phản ánh hiệu suất thực tế tiềm năng của một mô hình. Cho dù trong hệ thống xe tự hành hay quầy thanh toán bán lẻ, một mAP Điểm số đóng vai trò là chỉ số đáng tin cậy về hiệu suất và mức độ sẵn sàng thực tế của mô hình.
Trong khi mAP là một thước đo thiết yếu và có tác động mạnh mẽ, nên cần được xem xét như một phần của chiến lược đánh giá toàn diện. Đối với các ứng dụng quan trọng như chăm sóc sức khỏe và xe tự hành, chỉ dựa vào mAP .
Các yếu tố bổ sung như tốc độ suy luận (mô hình đưa ra dự đoán nhanh như thế nào), kích thước mô hình (ảnh hưởng đến việc triển khai trên các thiết bị biên) và phân tích lỗi định tính (hiểu các loại lỗi mà mô hình mắc phải) cũng phải được xem xét để đảm bảo hệ thống an toàn, hiệu quả và thực sự phù hợp với mục đích sử dụng.
Tham gia cộng đồng đang phát triển của chúng tôi và kho lưu trữ GitHub để tìm hiểu thêm về thị giác máy tính. Khám phá các trang giải pháp của chúng tôi để tìm hiểu về các ứng dụng của thị giác máy tính trong nông nghiệp và AI trong logistics. Xem các tùy chọn cấp phép của chúng tôi để bắt đầu với mô hình thị giác máy tính của riêng bạn ngay hôm nay!