YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024

객체 감지에서의 평균 정밀도 (mAP)

Abirami Vina

6분 소요

2025년 8월 28일

객체 감지에서 평균 정밀도(mAP)를 이해합니다. 그 의미, 계산 방법, 그리고 mAP가 모델 성능 평가에 중요한 이유를 알아보세요.

AI 도입이 빠르게 증가하고 있으며, 자율 주행 자동차에서부터 선반의 제품을 식별할 수 있는 소매 시스템에 이르기까지 다양한 혁신에 AI가 통합되고 있습니다. 이러한 기술은 시각 데이터를 분석할 수 있는 인공 지능(AI)의 한 분야인 컴퓨터 비전에 의존합니다. 

컴퓨터 비전 시스템 및 알고리즘의 정확도를 측정하는 데 사용되는 주요 평가 지표는 평균 정밀도(mAP)입니다. mAP 지표는 Vision AI 모델의 예측이 실제 결과와 얼마나 일치하는지 나타냅니다.

일반적인 컴퓨터 비전 작업은 객체 탐지이며, 모델은 이미지에서 여러 객체를 식별하고 주변에 바운딩 박스를 그립니다. mAP는 객체 탐지 모델의 성능을 평가하는 데 사용되는 표준 지표이며 Ultralytics YOLO11과 같은 딥러닝 모델을 벤치마킹하는 데 널리 사용됩니다.

이 기사에서는 평균 정밀도가 어떻게 계산되는지, 그리고 객체 탐지 모델을 훈련하거나 평가하는 모든 사람에게 왜 필수적인지 알아봅니다. 시작해 보겠습니다!

평균 정밀도(mAP)란 무엇인가?

평균 정밀도는 이미지에서 다양한 객체를 감지하고 식별하는 것과 같이 시각 정보 검색과 관련된 작업에서 딥러닝 모델이 얼마나 정확한지 보여주는 점수입니다. 예를 들어, 개, 고양이, 자동차가 포함된 사진을 분석하는 객체 감지 모델을 생각해 보세요. 신뢰할 수 있는 모델은 각 객체를 인식하고 주변에 바운딩 박스와 레이블을 그려서 객체 감지를 수행하여 객체의 위치와 종류를 강조 표시할 수 있습니다.

mAP는 모델이 여러 이미지와 다양한 유형의 객체에서 이 작업을 얼마나 잘 수행하는지 나타냅니다. 모델이 각 객체와 이미지 내 위치를 정확하게 식별하는지 확인합니다. 점수는 0에서 1 사이이며, 1은 모델이 모든 것을 완벽하게 찾았다는 의미이고 0은 객체를 전혀 감지하지 못했다는 의미입니다.

평균 정밀도(mAP)의 주요 개념

머신러닝에서 평균 정밀도(mean average precision)의 개념을 살펴보기 전에, 기본적인 용어인 '정답(ground truth)'과 '예측(predictions)'에 대해 먼저 이해해 보겠습니다. 

Ground truth는 정확한 참조 데이터를 의미하며, 이미지 내 객체와 해당 위치는 주석이라고 하는 프로세스를 통해 사람이 주의 깊게 레이블링합니다. 한편, 예측은 AI 모델이 이미지를 분석한 후 제공하는 결과입니다. AI 모델의 예측을 ground truth와 비교함으로써 모델이 올바른 결과에 얼마나 근접했는지 측정할 수 있습니다. 

Fig 1. 모델 예측 및 실제 바운딩 박스. 이미지 출처: 작성자.

오차 행렬

오차 행렬(Confusion matrix)은 객체 탐지 모델이 얼마나 정확한지 이해하는 데 자주 사용됩니다. 이는 모델의 예측이 실제 정답(ground truth)과 어떻게 일치하는지 보여주는 표입니다. 이 표에서 참 긍정(true positive), 거짓 긍정(false positive), 거짓 부정(false negative) 및 참 부정(true negative)의 네 가지 주요 구성 요소 또는 결과를 얻을 수 있습니다.

다음은 이러한 구성 요소가 혼동 행렬에서 나타내는 내용입니다.

  • True positive (TP): 객체와 해당 위치가 모델에 의해 올바르게 감지되었습니다.
  • 거짓 양성(FP): 모델이 감지했지만 잘못되었습니다.
  • 거짓 음성(FN): 이미지에 실제로 있었지만 모델이 감지하지 못한 객체입니다.
  • True negative (TN): True negative는 모델이 객체의 부재를 올바르게 식별할 때 발생합니다.

진정한 음성은 일반적으로 이미지의 많은 빈 영역을 무시하기 때문에 객체 감지에는 일반적으로 사용되지 않습니다. 그러나 모델이 이미지에 레이블을 할당하는 이미지 분류와 같은 다른 컴퓨터 비전 작업에서는 필수적입니다. 예를 들어, 이미지가 고양이를 포함하는지 여부를 감지하는 작업이고 모델이 이미지가 고양이를 포함하지 않을 때 “고양이 없음”을 올바르게 식별하면 이는 진정한 음성입니다.

그림 2. 오차 행렬(Confusion Matrix)에서의 분류 결과. 이미지 출처: 작성자.

IoU (Intersection over Union, 교차 영역)

객체 감지 모델을 평가하는 데 있어 또 다른 중요한 지표는 IoU(Intersection over Union)입니다. 이러한 Vision AI 모델의 경우 이미지 내 객체의 존재를 감지하는 것만으로는 충분하지 않으며, 경계 상자를 그리기 위해 이미지 내 어디에 있는지 위치를 파악해야 합니다. 

IoU 메트릭은 모델이 예측한 상자가 실제 정답 상자(Ground Truth)와 얼마나 일치하는지 측정합니다. 점수는 0과 1 사이이며, 1은 완벽한 일치를 의미하고 0은 전혀 겹치지 않음을 의미합니다.

예를 들어, 더 높은 IoU(예: 0.80 또는 0.85)는 예측된 상자가 실제 상자와 거의 일치하여 정확한 위치 지정을 나타냄을 의미합니다. 더 낮은 IoU(예: 0.30 또는 0.25)는 모델이 객체의 위치를 정확하게 찾지 못했음을 의미합니다.

검출 성공 여부를 판단하기 위해 다양한 임계값을 사용합니다. 일반적인 IoU 임계값은 0.5이며, 이는 예측된 경계 상자가 실제 정답 상자와 최소 50% 이상 겹쳐야 True Positive로 간주됨을 의미합니다. 이 임계값 미만의 겹침은 False Positive로 간주됩니다.

Fig 3. IoU(Intersection over Union)에 대한 이해. 이미지 출처: 작성자.

정밀도 및 재현율

지금까지 객체 탐지 모델의 성능을 이해하기 위한 몇 가지 기본 평가 지표를 살펴보았습니다. 이를 바탕으로 가장 중요한 지표 중 두 가지는 정밀도와 재현율입니다. 이는 모델의 탐지 정확도를 명확하게 보여줍니다. 그것들이 무엇인지 살펴봅시다.

정밀도 값은 모델의 예측 중 실제로 얼마나 정확했는지 알려줍니다. 모델이 탐지했다고 주장하는 모든 객체 중에서 실제로 얼마나 많이 있었습니까? 라는 질문에 답합니다.

반면에 재현율 값은 모델이 이미지에 있는 실제 객체를 얼마나 잘 찾아내는지 측정합니다. 이는 '실제로 존재하는 모든 객체 중에서 모델이 얼마나 많이 정확하게 감지했는가?'라는 질문에 대한 답입니다.

정밀도와 재현율을 함께 사용하면 모델이 얼마나 잘 수행되고 있는지 더 명확하게 파악할 수 있습니다. 예를 들어 모델이 이미지에서 10대의 자동차를 예측하고 그 중 9대가 실제로 자동차인 경우 정밀도는 90%입니다(긍정적 예측). 

이 두 가지 평가 지표는 종종 상충 관계를 포함합니다. 모델은 완전히 확신하는 예측만 수행하여 높은 정밀도 값을 달성할 수 있지만 이로 인해 많은 객체를 놓쳐 재현율 수준이 낮아질 수 있습니다. 한편, 거의 모든 곳에서 경계 상자를 예측하여 매우 높은 재현율에 도달할 수도 있지만 이는 정밀도를 감소시킵니다.

그림 4. 정밀도와 재현율. 이미지 출처: 작성자.

평균 정밀도

정밀도와 재현율은 모델이 개별 예측에서 얼마나 잘 수행되는지 이해하는 데 도움이 되지만, 평균 정밀도(AP)는 더 넓은 시각을 제공할 수 있습니다. 이는 모델이 더 많은 객체를 감지하려고 시도할 때 모델의 정밀도가 어떻게 변하는지 보여주고 성능을 단일 숫자로 요약합니다.

평균 정밀도 점수를 계산하기 위해 먼저 각 객체 유형에 대한 정밀도-재현율 곡선(또는 PR 곡선)이라고 하는 결합된 그래프와 같은 메트릭을 만들 수 있습니다. 이 곡선은 모델이 더 많은 예측을 수행함에 따라 발생하는 상황을 보여줍니다. 

모델이 가장 쉽거나 가장 명확한 객체만 감지하기 시작하는 시나리오를 생각해 보세요. 이 단계에서는 대부분의 예측이 정확하기 때문에 정밀도는 높지만, 많은 객체가 여전히 누락되어 재현율은 낮습니다. 모델이 더 어렵거나 드문 객체를 포함하여 더 많은 객체를 감지하려고 시도하면 일반적으로 더 많은 오류가 발생합니다. 이로 인해 재현율이 증가하는 동안 정밀도가 떨어집니다.

평균 정밀도는 PR 곡선의 곡선 아래 영역(AUC)입니다. 영역이 클수록 모델이 더 많은 객체를 감지하더라도 예측을 정확하게 유지하는 데 더 능숙하다는 의미입니다. AP는 각 클래스 레이블에 대해 별도로 계산됩니다. 

예를 들어, 자동차, 자전거 및 보행자를 감지할 수 있는 모델에서 이러한 세 가지 범주 각각에 대해 AP 값을 개별적으로 계산할 수 있습니다. 이를 통해 모델이 어떤 객체를 잘 감지하는지, 어디를 개선해야 하는지 확인할 수 있습니다.

Fig 5. 다섯 가지 다른 클래스에 대한 PR 곡선입니다. (출처)

평균 정밀도

각 객체 클래스에 대한 평균 정밀도를 계산한 후에도 모든 클래스에서 모델의 전체 성능을 반영하는 단일 점수가 여전히 필요합니다. 이는 평균 정밀도 평균 공식을 사용하여 달성할 수 있습니다. 이 공식은 모든 범주에 대한 AP 점수를 평균합니다.

예를 들어, YOLO11과 같은 컴퓨터 비전 모델이 자동차에 대해 0.827, 오토바이에 대해 0.679, 트럭에 대해 0.355, 버스에 대해 0.863, 자전거에 대해 0.982의 AP를 달성했다고 가정해 보겠습니다. mAP 공식을 사용하여 이러한 숫자를 더하고 다음과 같이 총 클래스 수로 나눌 수 있습니다. 

mAP = (0.827 + 0.679 + 0.355 + 0.863 + 0.982) ÷ 5 = 0.7432 ≈ 0.743

0.743의 mAP 점수는 모델이 모든 객체 클래스에서 얼마나 잘 수행되는지 판단하는 간단한 솔루션을 제공합니다. 1에 가까운 값은 모델이 대부분의 범주에서 정확하다는 것을 의미하고, 낮은 값은 일부 범주에서 어려움을 겪는다는 것을 나타냅니다.

컴퓨터 비전에서 AP 및 mAP의 중요성

AP와 mAP의 계산 방법과 구성 요소에 대한 이해도가 높아졌으므로 컴퓨터 비전에서 이것이 갖는 중요성에 대한 개요를 설명하겠습니다.

  • 특정 클래스에 대한 낮은 AP: 단일 클래스에 대한 낮은 AP는 종종 모델이 해당 특정 객체 클래스에 어려움을 겪고 있음을 의미합니다. 이는 학습 데이터가 부족하거나 이미지의 시각적 문제(예: 가려짐) 때문일 수 있습니다.
  • 지역화 오류: 낮은 IoU 임계값(예: mAP@0.50)에서 더 높은 mAP 값을 가지는 동시에 더 높은 IoU 임계값(예: mAP@0.75)에서 상당한 감소가 나타나면 모델이 객체를 감지할 수 있지만 정확하게 지역화하는 데 어려움을 겪는다는 것을 나타냅니다.
  • 과적합: 학습 데이터 세트에서 더 높은 mAP 값을 갖지만 검증 데이터 세트에서 더 낮은 mAP 값을 갖는 것은 과적합의 징후이며, 이는 모델을 새로운 이미지에 대해 신뢰할 수 없게 만듭니다.

평균 정밀도의 실제 응용 분야

다음으로, mAP와 같은 핵심 지표가 실제 컴퓨터 비전 사용 사례를 구축하는 데 어떻게 도움이 되는지 살펴보겠습니다.

자율 주행 차량: 더 높은 mAP 값이 도로 안전을 의미하는 이유

자율 주행 자동차의 경우 객체 감지는 보행자, 도로 표지판, 자전거 운전자 및 차선 표시를 식별하는 데 매우 중요합니다. 예를 들어 어린이가 갑자기 길을 건너면 자동차는 객체(어린이)를 감지하고, 위치를 파악하고, 움직임을 추적하고, 필요한 조치(브레이크 작동)를 취하는 데 몇 초가 걸립니다. 

YOLO11과 같은 모델은 이러한 위험도가 높은 시나리오에서 실시간 객체 감지를 위해 설계되었습니다. 이러한 경우 mAP는 안전의 중요한 척도가 됩니다.

높은 mAP 점수는 시스템이 어린이를 신속하게 감지하고, 정확하게 위치를 파악하고, 지연을 최소화하면서 제동을 트리거하도록 보장합니다. 낮은 mAP는 감지 누락 또는 어린이를 다른 작은 물체와 혼동하는 것과 같은 위험한 오분류를 의미할 수 있습니다.

그림 6. 도로에서 보행자 감지에 YOLO11이 사용된 예시입니다. (출처)

정확한 제품 감지를 위한 mAP 사용

마찬가지로, 소매업에서 객체 감지 모델은 재고 모니터링 및 계산대 프로세스와 같은 작업을 자동화하는 데 사용할 수 있습니다. 고객이 셀프 계산대에서 제품을 스캔할 때 감지 오류가 발생하면 불만을 야기할 수 있습니다.

높은 mAP 점수는 모델이 유사한 제품을 정확하게 구별하고 품목이 빽빽하게 포장된 경우에도 정확한 경계 상자를 그리도록 보장합니다. 낮은 mAP 점수는 혼동을 일으킬 수 있습니다. 예를 들어 모델이 오렌지 주스 병을 시각적으로 유사한 사과 주스 병으로 착각하면 잘못된 청구 및 부정확한 재고 보고서가 발생할 수 있습니다.

YOLO11과 같은 모델과 통합된 소매 시스템은 제품을 실시간으로 감지하고, 재고와 대조하여 백엔드 시스템을 즉시 업데이트할 수 있습니다. 빠르게 변화하는 소매 환경에서 mAP는 운영의 정확성과 신뢰성을 유지하는 데 중요한 역할을 합니다.

헬스케어 분야에서 높은 mAP로 진단 정확도 향상

헬스케어 분야에서 진단 정확도를 높이는 것은 의료 영상에서 정확한 탐지에서 시작됩니다. YOLO11과 같은 모델은 방사선 전문의가 의료 영상 스캔에서 종양, 골절 또는 기타 이상 징후를 발견하는 데 도움이 될 수 있습니다. 여기서 평균 정밀도는 모델의 임상적 신뢰성을 평가하는 데 필수적인 지표입니다.

높은 mAP는 모델이 높은 재현율(대부분의 실제 문제 식별)과 높은 정확도(오경보 방지)를 모두 달성했음을 나타내며, 이는 임상 의사 결정에 매우 중요합니다. 또한 의료 분야의 IoU 임계값은 매우 정확한 탐지를 보장하기 위해 매우 높게(0.85 또는 0.90) 설정되는 경우가 많습니다.

그러나 낮은 mAP 점수는 우려를 낳을 수 있습니다. 모델이 종양을 놓치는 경우 진단이 지연되거나 잘못된 치료로 이어질 수 있습니다. 

mAP 사용의 장단점

다음은 객체 탐지 모델을 평가하는 데 평균 정밀도를 사용하는 주요 이점입니다.

  • 표준화된 메트릭: mAP는 객체 감지 모델을 평가하기 위한 업계 표준입니다. mAP 값을 사용하면 서로 다른 모델 간에 공정하고 일관된 비교가 가능합니다.
  • 실제 성능 반영: 높은 mAP는 모델이 다양한 객체 클래스를 감지하는 데 탁월하며 복잡한 실제 시나리오에서 강력한 성능을 유지한다는 것을 나타냅니다.
  • 클래스별 진단: mAP 점수는 각 클래스별로 감지 성능을 평가합니다. 이를 통해 성능이 저조한 범주(예: 자전거 또는 도로 표지판)를 식별하고 그에 따라 모델을 미세 조정하기가 더 쉽습니다.

mAP 지표를 사용하는 데에는 여러 가지 이점이 있지만 고려해야 할 몇 가지 제한 사항이 있습니다. 고려해야 할 몇 가지 요소는 다음과 같습니다.

  • 비기술적 이해 관계자에게는 어려움: 비즈니스 또는 임상 팀은 mAP 값을 보다 직관적이고 이해하기 쉬운 지표와 달리 추상적으로 생각할 수 있습니다.
  • 실시간 제약 조건을 반영하지 않음: mAP는 추론 속도 또는 대기 시간을 고려하지 않으며, 이는 시간에 민감한 애플리케이션에 배포하는 데 매우 중요합니다.

주요 내용

평균 정밀도는 단순한 기술 점수가 아니라 모델의 실제 성능을 반영한다는 것을 확인했습니다. 자율 주행 시스템이든 소매점 계산대든, 높은 mAP 점수는 모델의 성능과 실제 적용 가능성을 나타내는 신뢰할 수 있는 지표가 됩니다.

mAP는 필수적이고 영향력 있는 지표이지만, 균형 잡힌 평가 전략의 일부로 간주해야 합니다. 의료 및 자율 주행과 같은 중요한 애플리케이션의 경우 mAP에만 의존하는 것으로는 충분하지 않습니다. 

추론 속도(모델이 예측을 얼마나 빨리 수행하는지), 모델 크기(에지 장치 배포에 미치는 영향) 및 정성적 오류 분석(모델이 저지르는 실수의 유형 이해)과 같은 추가적인 요소도 시스템이 안전하고 효율적이며 의도한 목적에 진정으로 적합한지 확인하기 위해 고려해야 합니다.

성장하는 커뮤니티에 참여하고 GitHub 저장소에서 컴퓨터 비전에 대해 자세히 알아보세요. 솔루션 페이지를 탐색하여 농업 분야의 컴퓨터 비전물류 분야의 AI의 애플리케이션에 대해 알아보세요. 라이선스 옵션을 확인하여 오늘 자신만의 컴퓨터 비전 모델을 시작하세요!

함께 미래의 AI를 만들어 갑시다!

미래의 머신러닝 여정을 시작하세요

무료로 시작하기
클립보드에 링크가 복사되었습니다.