Độ chính xác trung bình ( mAP ): Phát hiện đối tượng

Việc ứng dụng AI đang phát triển nhanh chóng và AI đang được tích hợp vào nhiều đổi mới khác nhau, từ xe tự lái đến hệ thống bán lẻ có thể xác định sản phẩm trên kệ. Các công nghệ này dựa vào thị giác máy tính, một nhánh của trí tuệ nhân tạo (AI) cho phép máy móc phân tích dữ liệu trực quan.

Một số liệu đánh giá quan trọng được sử dụng để đo độ chính xác của các hệ thống và thuật toán thị giác máy tính là độ chính xác trung bình ( mAP ). Các mAP Chỉ số này cho biết mức độ chính xác của dự đoán của mô hình Vision AI so với kết quả thực tế.

Một nhiệm vụ phổ biến của thị giác máy tính là phát hiện đối tượng, trong đó mô hình sẽ xác định nhiều đối tượng trong một hình ảnh và vẽ các hộp giới hạn xung quanh chúng. mAP là số liệu chuẩn được sử dụng để đánh giá hiệu suất của các mô hình phát hiện đối tượng và được sử dụng rộng rãi để đánh giá chuẩn các mô hình học sâu như Ultralytics YOLO11 .

Trong bài viết này, chúng ta sẽ xem độ chính xác trung bình (mean average precision) được tính như thế nào và tại sao nó lại cần thiết cho bất kỳ ai huấn luyện hoặc đánh giá các mô hình phát hiện đối tượng. Hãy bắt đầu!

Độ chính xác trung bình là gì ( mAP )?

Độ chính xác trung bình là một điểm số cho thấy mức độ chính xác của một mô hình deep learning khi thực hiện các tác vụ liên quan đến truy xuất thông tin trực quan, chẳng hạn như phát hiện và xác định các đối tượng khác nhau trong một hình ảnh. Ví dụ: hãy xem xét một mô hình phát hiện đối tượng phân tích một bức ảnh có chứa một con chó, một con mèo và một chiếc ô tô. Một mô hình đáng tin cậy có thể thực hiện phát hiện đối tượng bằng cách nhận dạng từng đối tượng và vẽ các khung giới hạn và nhãn xung quanh nó, làm nổi bật vị trí và đối tượng đó là gì.

mAP cho biết mô hình thực hiện nhiệm vụ này tốt như thế nào trên nhiều hình ảnh và các loại đối tượng khác nhau. Nó kiểm tra xem mô hình có nhận dạng chính xác từng đối tượng và vị trí của chúng trong ảnh hay không. Điểm số dao động từ 0 đến 1, trong đó 1 nghĩa là mô hình đã tìm thấy mọi thứ một cách hoàn hảo, và 0 nghĩa là mô hình không tìm thấy. detect bất kỳ đồ vật nào.

Các khái niệm chính trong độ chính xác trung bình ( mAP )

Trước khi khám phá các khái niệm đằng sau độ chính xác trung bình (mean average precision) trong học máy, hãy hiểu rõ hơn về hai thuật ngữ cơ bản: ground truth (sự thật cơ bản) và predictions (dự đoán).

Ground truth đề cập đến dữ liệu tham chiếu chính xác, trong đó các đối tượng và vị trí của chúng trong hình ảnh được con người gắn nhãn cẩn thận thông qua một quy trình gọi là chú thích. Trong khi đó, các dự đoán là kết quả mà các mô hình AI đưa ra sau khi phân tích một hình ảnh. Bằng cách so sánh các dự đoán của mô hình AI với ground truth, chúng ta có thể đo lường mức độ gần đúng của mô hình so với kết quả chính xác.

Hình 1. Dự đoán của mô hình và bounding box ground truth. Ảnh của tác giả.

‍

Ma trận nhầm lẫn (Confusion matrix)

Ma trận nhầm lẫn (Confusion matrix) thường được sử dụng để hiểu độ chính xác của mô hình phát hiện đối tượng. Đó là một bảng cho thấy các dự đoán của mô hình khớp với các câu trả lời đúng thực tế (ground truth) như thế nào. Từ bảng này, chúng ta có thể có được sự phân tích chi tiết về bốn thành phần hoặc kết quả chính: true positives, false positives, false negatives và true negatives.

Dưới đây là ý nghĩa của các thành phần này trong ma trận nhầm lẫn:

Dương tính đúng (TP): Một đối tượng và vị trí của nó được mô hình phát hiện chính xác.
‍
Dương tính giả (FP): Mô hình đã thực hiện phát hiện, nhưng nó không chính xác.
‍
Âm tính giả (FN): Một vật thể thực sự có trong hình ảnh, nhưng mô hình không thể detect Nó.
‍
Âm tính đúng (TN): Âm tính đúng xảy ra khi mô hình xác định chính xác sự vắng mặt của một đối tượng.

Tiêu cực thực sự không thường được sử dụng trong phát hiện đối tượng, vì chúng ta thường bỏ qua nhiều vùng trống trong ảnh. Tuy nhiên, nó rất cần thiết trong các tác vụ thị giác máy tính khác, chẳng hạn như phân loại ảnh , trong đó mô hình gán nhãn cho ảnh. Ví dụ, nếu tác vụ là detect cho dù hình ảnh có mèo hay không và mô hình xác định đúng "không có mèo" khi hình ảnh không có mèo, thì đó là kết quả âm tính thực sự.

Hình 2. Kết quả phân loại trong ma trận nhầm lẫn. Ảnh của tác giả.

‍

Giao lộ qua Union ( IoU )

Một số liệu quan trọng khác trong việc đánh giá các mô hình phát hiện đối tượng là Giao điểm trên Hợp nhất ( IoU ). Đối với các mô hình Vision AI như vậy, việc chỉ phát hiện sự hiện diện của một đối tượng trong hình ảnh là không đủ; nó còn cần xác định vị trí của đối tượng trong hình ảnh để vẽ các hộp giới hạn.

Các IoU Chỉ số đo lường mức độ khớp giữa hộp dự đoán của mô hình với hộp thực tế (giá trị thực tế). Điểm số nằm trong khoảng từ 0 đến 1, trong đó 1 nghĩa là khớp hoàn toàn và 0 nghĩa là không có sự trùng lặp nào.

Ví dụ, một cao hơn IoU (như 0,80 hoặc 0,85) có nghĩa là hộp dự đoán khớp chặt với hộp thực tế, cho thấy vị trí chính xác. Thấp hơn IoU (như 0,30 hoặc 0,25) có nghĩa là mô hình không xác định chính xác vị trí của vật thể.

Để xác định xem việc phát hiện có thành công hay không, chúng tôi sử dụng các ngưỡng khác nhau. Một điểm chung IoU Ngưỡng là 0,5, nghĩa là hộp dự đoán phải trùng với hộp thực tế ít nhất 50% mới được tính là dương tính thật. Bất kỳ sự trùng lặp nào dưới ngưỡng này được coi là dương tính giả.

Hình 3. Tìm hiểu về Intersection over Union (IoU). Hình ảnh của tác giả.

‍

Độ chính xác (Precision) và độ phủ (Recall)

Cho đến nay, chúng ta đã khám phá một số số liệu đánh giá cơ bản để hiểu hiệu suất của các mô hình phát hiện đối tượng. Dựa trên điều này, hai trong số các số liệu quan trọng nhất là độ chính xác (precision) và độ phủ (recall). Chúng cung cấp cho chúng ta một bức tranh rõ ràng về độ chính xác của các phát hiện của mô hình. Hãy xem chúng là gì.

Giá trị độ chính xác cho chúng ta biết có bao nhiêu dự đoán của mô hình thực sự chính xác. Nó trả lời câu hỏi: trong số tất cả các đối tượng mà mô hình tuyên bố detect , thực sự có bao nhiêu người ở đó?

Mặt khác, giá trị thu hồi đo lường mức độ mô hình tìm thấy tất cả các đối tượng thực tế có trong ảnh. Nó trả lời câu hỏi: trong số tất cả các đối tượng thực tế có trong ảnh, có bao nhiêu đối tượng được mô hình nhận dạng chính xác? detect ?

Cùng với nhau, độ chính xác (precision) và độ phủ (recall) cho chúng ta một bức tranh rõ ràng hơn về hiệu suất của mô hình. Ví dụ: nếu một mô hình dự đoán 10 chiếc xe hơi trong một hình ảnh và 9 trong số đó thực sự là xe hơi, thì nó có độ chính xác là 90% (một dự đoán dương tính).

Hai số liệu đánh giá này thường liên quan đến sự đánh đổi: một mô hình có thể đạt được giá trị precision cao bằng cách chỉ đưa ra các dự đoán mà nó hoàn toàn tự tin, nhưng điều này có thể khiến nó bỏ lỡ nhiều đối tượng, điều này làm giảm mức recall. Trong khi đó, nó cũng có thể đạt được mức recall rất cao bằng cách dự đoán một bounding box ở hầu hết mọi nơi, nhưng điều này sẽ làm giảm precision.

Hình 4. Độ chính xác và độ thu hồi. Ảnh của tác giả.

‍

Độ chính xác trung bình

Trong khi độ chính xác và khả năng thu hồi giúp chúng ta hiểu cách một mô hình thực hiện trên các dự đoán riêng lẻ, Độ chính xác trung bình ( AP ) có thể cung cấp một cái nhìn rộng hơn. Nó minh họa cách độ chính xác của mô hình thay đổi khi nó cố gắng detect nhiều đối tượng hơn và tóm tắt hiệu suất của nó thành một con số duy nhất.

Để tính điểm chính xác trung bình, trước tiên chúng ta có thể tạo một số liệu giống như đồ thị kết hợp được gọi là đường cong precision-recall (hoặc đường cong PR) cho mỗi loại đối tượng. Đường cong này cho thấy điều gì xảy ra khi mô hình đưa ra nhiều dự đoán hơn.

Hãy xem xét một kịch bản trong đó mô hình bắt đầu bằng cách chỉ phát hiện những đối tượng dễ nhất hoặc dễ nhận biết nhất. Ở giai đoạn này, độ chính xác cao vì hầu hết các dự đoán đều chính xác, nhưng độ nhớ lại thấp vì nhiều đối tượng vẫn bị bỏ sót. Khi mô hình cố gắng detect Càng nhiều đối tượng, kể cả những đối tượng khó hơn hoặc hiếm hơn, thường càng gây ra nhiều lỗi hơn. Điều này khiến độ chính xác giảm trong khi độ thu hồi tăng.

Độ chính xác trung bình là diện tích dưới đường cong (AUC của đường cong PR). Diện tích càng lớn thì mô hình càng chính xác trong việc duy trì dự đoán, ngay cả khi phát hiện nhiều đối tượng hơn. AP được tính riêng cho từng nhãn lớp.

Ví dụ, trong một mô hình có thể detect ô tô, xe đạp và người đi bộ, chúng ta có thể tính toán AP giá trị riêng lẻ cho từng loại trong ba loại đó. Điều này giúp chúng ta thấy được mô hình phát hiện tốt những đối tượng nào và những điểm nào cần cải thiện.

Hình 5. Đường cong PR cho năm lớp khác nhau. (Nguồn)

‍

Độ chính xác trung bình (Mean average precision)

Sau khi tính toán độ chính xác trung bình cho từng lớp đối tượng, chúng ta vẫn cần một điểm số duy nhất phản ánh hiệu suất tổng thể của mô hình trên tất cả các lớp. Điều này có thể đạt được bằng cách sử dụng công thức độ chính xác trung bình . Công thức này tính trung bình AP điểm cho từng hạng mục.

Ví dụ, chúng ta hãy giả sử một mô hình thị giác máy tính như YOLO11 đạt được một AP của 0,827 đối với ô tô, 0,679 đối với xe máy, 0,355 đối với xe tải, 0,863 đối với xe buýt và 0,982 đối với xe đạp. Sử dụng mAP công thức, chúng ta có thể cộng các số này và chia cho tổng số lớp như sau:

mAP = (0,827 + 0,679 + 0,355 + 0,863 + 0,982) ÷ 5 = 0,7432 ≈ 0,743

‍

Các mAP Điểm 0,743 cung cấp một giải pháp đơn giản để đánh giá hiệu suất của mô hình trên tất cả các lớp đối tượng. Giá trị gần 1 có nghĩa là mô hình chính xác với hầu hết các danh mục, trong khi giá trị thấp hơn cho thấy mô hình gặp khó khăn với một số danh mục.

Ý nghĩa của AP Và mAP trong tầm nhìn máy tính

Bây giờ chúng ta đã hiểu rõ hơn về cách AP Và mAP được tính toán và các thành phần của chúng là gì, sau đây là tổng quan về ý nghĩa của chúng trong thị giác máy tính:

AP thấp cho một lớp cụ thể: AP thấp AP Việc chỉ xử lý một lớp duy nhất thường có nghĩa là mô hình gặp khó khăn với lớp đối tượng cụ thể đó. Điều này có thể do dữ liệu huấn luyện không đủ hoặc các vấn đề về hình ảnh, chẳng hạn như hiện tượng che khuất.

Lỗi bản địa hóa: Cao hơn mAP giá trị ở mức thấp hơn IoU ngưỡng (chẳng hạn như mAP @0,50) kết hợp với mức giảm đáng kể ở mức cao hơn IoU ngưỡng (chẳng hạn như mAP @0,75) chỉ ra rằng mô hình có thể detect các đối tượng nhưng gặp khó khăn trong việc xác định vị trí chính xác của chúng.

Quá mức: Cao hơn mAP giá trị trên tập dữ liệu đào tạo nhưng thấp hơn mAP giá trị trên tập dữ liệu xác thực là dấu hiệu của việc quá khớp, khiến mô hình không đáng tin cậy đối với hình ảnh mới.

Ứng dụng thực tế của độ chính xác trung bình (mean average precision)

Tiếp theo, chúng ta hãy khám phá các số liệu chính như mAP có thể giúp ích khi xây dựng các trường hợp sử dụng thị giác máy tính trong thế giới thực.

Xe tự hành: Tại sao lại cao hơn mAP giá trị có nghĩa là đường an toàn hơn

Khi nói đến xe tự lái , tính năng phát hiện vật thể rất quan trọng để nhận dạng người đi bộ, biển báo giao thông, người đi xe đạp và vạch kẻ đường. Ví dụ, nếu một đứa trẻ đột nhiên chạy qua đường, xe có vài giây để... detect đối tượng (trẻ em), xác định vị trí của nó, track chuyển động của nó và thực hiện hành động cần thiết (bấm phanh).

Các mô hình như YOLO11 được thiết kế để phát hiện đối tượng theo thời gian thực trong những tình huống có rủi ro cao như vậy. Trong những trường hợp này, mAP trở thành biện pháp an toàn quan trọng.

Một cao mAP điểm số đảm bảo hệ thống phát hiện trẻ em nhanh chóng, định vị chính xác và kích hoạt phanh với độ trễ tối thiểu. Mức thấp mAP có thể có nghĩa là bỏ sót phát hiện hoặc phân loại sai nguy hiểm, chẳng hạn như nhầm lẫn trẻ với một vật nhỏ khác.

Hình 6. Một ví dụ về YOLO11 được sử dụng để detect người đi bộ trên đường. ( Nguồn )

‍

Sử dụng mAP để phát hiện sản phẩm chính xác

Tương tự, trong bán lẻ, các mô hình phát hiện đối tượng có thể được sử dụng để tự động hóa các tác vụ như theo dõi hàng tồn kho và quy trình thanh toán. Khi khách hàng quét một sản phẩm tại quầy tự thanh toán, lỗi trong quá trình phát hiện có thể gây ra sự khó chịu.

Một cao mAP điểm số đảm bảo mô hình phân biệt chính xác giữa các sản phẩm tương tự và vẽ các hộp giới hạn chính xác, ngay cả khi các mặt hàng được đóng gói chặt chẽ. Thấp mAP Điểm số có thể dẫn đến nhầm lẫn. Ví dụ, nếu mô hình nhầm lẫn một chai nước cam với một chai nước táo có hình dáng tương tự, điều này có thể dẫn đến việc lập hóa đơn không chính xác và báo cáo tồn kho không chính xác.

Hệ thống bán lẻ tích hợp với các mô hình như YOLO11 Có thể detect sản phẩm theo thời gian thực, kiểm tra chúng với hàng tồn kho và cập nhật hệ thống phụ trợ ngay lập tức. Trong môi trường bán lẻ nhịp độ nhanh, mAP đóng vai trò quan trọng trong việc duy trì hoạt động chính xác và đáng tin cậy.

Nâng cao độ chính xác chẩn đoán với mAP trong chăm sóc sức khỏe

Cải thiện độ chính xác chẩn đoán trong chăm sóc sức khỏe bắt đầu bằng việc phát hiện chính xác trong hình ảnh y tế . Các mô hình như YOLO11 có thể giúp các bác sĩ X-quang phát hiện khối u, gãy xương hoặc các bất thường khác từ các lần chụp cắt lớp y tế đó. Ở đây, độ chính xác trung bình là một thước đo thiết yếu để đánh giá độ tin cậy lâm sàng của mô hình.

Một cao mAP cho thấy mô hình đạt được cả khả năng thu hồi cao (xác định các vấn đề thực tế nhất) và độ chính xác cao (tránh báo động giả), điều này rất quan trọng trong việc ra quyết định lâm sàng. Ngoài ra, IoU ngưỡng trong chăm sóc sức khỏe thường được đặt rất cao (0,85 hoặc 0,90) để đảm bảo phát hiện cực kỳ chính xác.

Tuy nhiên, một mức thấp mAP Điểm số có thể gây ra lo ngại. Giả sử một mô hình bỏ sót khối u; nó có thể làm chậm trễ việc chẩn đoán hoặc dẫn đến điều trị không đúng cách.

Ưu và nhược điểm của việc sử dụng mAP

Dưới đây là những ưu điểm chính của việc sử dụng độ chính xác trung bình (mean average precision) để đánh giá các mô hình phát hiện đối tượng:

Đơn vị đo lường chuẩn hóa: mAP là tiêu chuẩn công nghiệp để đánh giá các mô hình phát hiện đối tượng. A mAP giá trị cho phép so sánh công bằng và nhất quán giữa các mô hình khác nhau.

Phản ánh hiệu suất thực tế: Cao mAP cho thấy mô hình này có khả năng phát hiện nhiều lớp đối tượng khác nhau và duy trì hiệu suất mạnh mẽ trong các tình huống phức tạp trong thế giới thực.

Chẩn đoán theo lớp: A mAP Điểm số đánh giá hiệu suất phát hiện cho từng lớp riêng biệt. Điều này giúp dễ dàng xác định các danh mục kém hiệu quả (như xe đạp hoặc biển báo đường phố) và tinh chỉnh mô hình cho phù hợp.

Mặc dù có nhiều lợi ích khi sử dụng mAP Hệ mét, có một số hạn chế cần cân nhắc. Dưới đây là một số yếu tố cần lưu ý:

Khó khăn cho các bên liên quan không phải là chuyên gia công nghệ: Các nhóm kinh doanh hoặc lâm sàng có thể thấy mAP các giá trị trừu tượng, không giống như các số liệu trực quan và dễ hiểu hơn.

Không phản ánh các ràng buộc thời gian thực: mAP không tính đến tốc độ suy luận hoặc độ trễ, những yếu tố rất quan trọng để triển khai trong các ứng dụng nhạy cảm với thời gian.

Những điều cần nhớ

Chúng tôi đã thấy rằng độ chính xác trung bình không chỉ là một điểm số kỹ thuật mà còn phản ánh hiệu suất thực tế tiềm năng của một mô hình. Cho dù trong hệ thống xe tự hành hay quầy thanh toán bán lẻ, một mAP Điểm số đóng vai trò là chỉ số đáng tin cậy về hiệu suất và mức độ sẵn sàng thực tế của mô hình.

Trong khi mAP là một thước đo thiết yếu và có tác động mạnh mẽ, nên cần được xem xét như một phần của chiến lược đánh giá toàn diện. Đối với các ứng dụng quan trọng như chăm sóc sức khỏe và xe tự hành, chỉ dựa vào mAP .

Các yếu tố bổ sung như tốc độ suy luận (mô hình đưa ra dự đoán nhanh như thế nào), kích thước mô hình (ảnh hưởng đến việc triển khai trên các thiết bị biên) và phân tích lỗi định tính (hiểu các loại lỗi mà mô hình mắc phải) cũng phải được xem xét để đảm bảo hệ thống an toàn, hiệu quả và thực sự phù hợp với mục đích sử dụng.

Tham gia cộng đồng đang phát triển của chúng tôi và kho lưu trữ GitHub để tìm hiểu thêm về thị giác máy tính. Khám phá các trang giải pháp của chúng tôi để tìm hiểu về các ứng dụng của thị giác máy tính trong nông nghiệp và AI trong logistics. Xem các tùy chọn cấp phép của chúng tôi để bắt đầu với mô hình thị giác máy tính của riêng bạn ngay hôm nay!

Độ chính xác trung bình ( mAP ) trong phát hiện đối tượng

Độ chính xác trung bình là gì ( mAP )?