AI 도입이 빠르게 증가하고 있으며, 자율 주행 자동차부터 진열대에 있는 제품을 식별할 수 있는 리테일 시스템에 이르기까지 다양한 혁신에 AI가 통합되고 있습니다. 이러한 기술은 기계가 시각적 데이터를 분석할 수 있게 해주는 인공지능(AI)의 한 분야인 컴퓨터 비전에 의존합니다.
컴퓨터 비전 시스템과 알고리즘의 정확도를 측정하는 데 사용되는 주요 평가 지표는 평균 평균 정밀도(mAP)입니다. mAP 지표는 Vision AI 모델의 예측이 실제 결과와 얼마나 일치하는지를 나타냅니다.
일반적인 컴퓨터 비전 작업은 이미지에서 여러 개의 객체를 식별하고 그 주위에 경계 상자를 그리는 객체 감지입니다. mAP는 객체 감지 모델의 성능을 평가하는 데 사용되는 표준 메트릭으로, Ultralytics YOLO11과 같은 딥러닝 모델을 벤치마킹하는 데 널리 사용됩니다.
이 글에서는 평균 정밀도를 계산하는 방법과 물체 감지 모델을 훈련하거나 평가하는 모든 사람에게 평균 정밀도가 필수적인 이유를 살펴봅니다. 시작해 보겠습니다!
평균 평균 정밀도는 이미지에서 다양한 물체를 감지하고 식별하는 등 시각 정보 검색과 관련된 작업에서 딥러닝 모델이 얼마나 정확한지 보여주는 점수입니다. 예를 들어 개, 고양이, 자동차가 포함된 사진을 분석하는 객체 감지 모델을 생각해 보세요. 신뢰할 수 있는 모델은 각 물체를 인식하고 그 주위에 경계 상자와 레이블을 그려 물체의 위치와 물체의 종류를 강조 표시하여 물체 감지를 수행할 수 있습니다.
mAP는 모델이 여러 이미지와 다양한 유형의 객체에서 이 작업을 얼마나 잘 수행하는지를 나타냅니다. 모델이 이미지 내에서 각 물체와 그 위치를 정확하게 식별하는지 여부를 확인합니다. 점수는 0에서 1까지이며, 1은 모델이 모든 것을 완벽하게 찾아냈음을 의미하고 0은 어떤 물체도 감지하지 못했음을 의미합니다.
머신 러닝에서 평균 평균 정밀도의 개념을 살펴보기 전에 기초 자료와 예측이라는 두 가지 기본 용어에 대해 더 잘 이해해 보겠습니다.
실측 데이터는 이미지 속 물체와 그 위치에 사람이 주석이라는 과정을 통해 세심하게 라벨을 붙인 정확한 기준 데이터를 말합니다. 반면 예측은 AI 모델이 이미지를 분석한 후 제공하는 결과입니다. AI 모델의 예측을 실측 데이터와 비교함으로써 모델이 얼마나 정확한 결과에 근접했는지 측정할 수 있습니다.
혼동 행렬은 물체 감지 모델의 정확도를 파악하는 데 자주 사용됩니다. 혼동 행렬은 모델의 예측이 실제 정답(기준 진실)과 어떻게 일치하는지 보여주는 표입니다. 이 표에서 오탐, 정탐, 오탐, 미탐, 정탐의 네 가지 주요 구성 요소 또는 결과를 분석할 수 있습니다.
혼동 매트릭스에서 이러한 구성 요소가 나타내는 것은 다음과 같습니다:
트루 네거티브는 일반적으로 이미지의 많은 빈 영역을 무시하기 때문에 객체 감지에는 일반적으로 사용되지 않습니다. 그러나 모델이 이미지에 레이블을 할당하는 이미지 분류와 같은 다른 컴퓨터 비전 작업에서는 필수적입니다. 예를 들어 이미지에 고양이가 있는지 여부를 감지하는 작업에서 이미지에 고양이가 없는데도 모델이 "고양이 없음"을 정확하게 식별한다면 이는 진정한 네거티브입니다.
객체 감지 모델을 평가하는 데 있어 또 다른 중요한 지표는 IoU( Intersection over Union )입니다. 이러한 비전 AI 모델의 경우 단순히 이미지에서 물체의 존재를 감지하는 것만으로는 충분하지 않으며, 이미지에서 물체가 있는 위치를 찾아 경계 상자를 그려야 합니다.
IoU 지표는 모델의 예측된 박스가 실제 정확한 박스(실측치)와 얼마나 일치하는지를 측정합니다. 점수는 0에서 1 사이이며, 1은 완벽하게 일치함을 의미하고 0은 전혀 겹치지 않음을 의미합니다.
예를 들어, 0.80 또는 0.85와 같이 IoU가 높을수록 예측된 박스가 실측 박스와 거의 일치하여 정확한 위치 파악이 이루어지고 있음을 의미합니다. 0.30 또는 0.25와 같이 IoU가 낮으면 모델이 객체의 위치를 정확하게 찾지 못했음을 의미합니다.
탐지의 성공 여부를 판단하기 위해 다양한 임계값을 사용합니다. 일반적인 IoU 임계값은 0.5이며, 이는 예측된 박스가 실제 박스와 50% 이상 겹쳐야 실제 양성으로 계산된다는 의미입니다. 이 임계값 이하로 겹치면 오탐으로 간주됩니다.
지금까지 객체 감지 모델의 성능을 이해하기 위한 몇 가지 기본적인 평가 지표를 살펴보았습니다. 이를 바탕으로 가장 중요한 두 가지 지표는 정확도와 리콜입니다. 이 두 가지 지표를 통해 모델의 탐지 정확도를 명확하게 파악할 수 있습니다. 이 두 가지 지표가 무엇인지 살펴보겠습니다.
정확도 값은 모델의 예측 중 실제로 얼마나 많은 예측이 정확했는지를 알려줍니다. 이는 모델이 감지했다고 주장한 모든 물체 중 실제로 존재하는 물체는 몇 개인가라는 질문에 대한 답을 제공합니다.
반면에 리콜 값은 모델이 이미지에 존재하는 모든 실제 물체를 얼마나 잘 찾아내는지를 측정합니다. 즉, 이미지에 존재하는 모든 실제 물체 중 모델이 얼마나 많은 물체를 정확하게 감지했는지에 대한 질문에 대한 답을 제공합니다.
정확도와 회상률을 함께 사용하면 모델이 얼마나 잘 작동하는지 더 명확하게 파악할 수 있습니다. 예를 들어, 모델이 이미지에서 10대의 자동차를 예측하고 그 중 9대가 실제로 자동차라면 정확도는 90%(양성 예측)입니다.
이 두 가지 평가 지표에는 종종 상충 관계가 있습니다. 모델이 완전히 확신하는 예측만 수행하여 높은 정밀도 값을 얻을 수 있지만, 이로 인해 많은 개체를 놓칠 수 있어 리콜 수준이 낮아질 수 있습니다. 한편, 거의 모든 곳에서 바운딩 박스를 예측하여 매우 높은 정확도에 도달할 수도 있지만 정확도가 떨어질 수 있습니다.
정확도와 재인식이 개별 예측에 대한 모델의 성능을 이해하는 데 도움이 된다면, 평균 정확도(AP)는 보다 폭넓은 시각을 제공할 수 있습니다. 이는 모델이 더 많은 개체를 감지하려고 시도할 때 모델의 정확도가 어떻게 변화하는지 보여주며, 성능을 단일 수치로 요약합니다.
평균 정확도 점수를 계산하려면 먼저 각 개체 유형에 대해 정확도-재콜 곡선(또는 PR 곡선)이라는 그래프형 메트릭을 조합하여 만들 수 있습니다. 이 곡선은 모델이 더 많은 예측을 수행함에 따라 어떤 일이 일어나는지 보여줍니다.
모델이 가장 쉽거나 가장 분명한 물체만 감지하는 것으로 시작하는 시나리오를 생각해 보세요. 이 단계에서는 대부분의 예측이 정확하기 때문에 정확도는 높지만, 여전히 많은 물체를 놓치기 때문에 회상률은 낮습니다. 모델이 더 어렵거나 희귀한 물체를 포함하여 더 많은 물체를 감지하려고 시도할수록 일반적으로 더 많은 오류가 발생합니다. 이로 인해 정확도는 떨어지고 회상률은 높아집니다.
평균 정밀도는 곡선 아래 면적(PR 곡선의 AUC)입니다. 면적이 클수록 모델이 더 많은 개체를 감지하더라도 예측을 더 정확하게 유지한다는 의미입니다. AP는 각 클래스 레이블에 대해 개별적으로 계산됩니다.
예를 들어 자동차, 자전거, 보행자를 감지할 수 있는 모델에서는 이 세 가지 범주 각각에 대해 개별적으로 AP 값을 계산할 수 있습니다. 이를 통해 모델이 어떤 물체를 잘 감지하는지, 어떤 부분을 개선해야 하는지 파악할 수 있습니다.
각 객체 클래스의 평균 정밀도를 계산한 후에도 모든 클래스에서 모델의 전반적인 성능을 반영하는 단일 점수가 필요합니다. 이는 평균 평균 정밀도 공식을 사용하여 달성할 수 있습니다. 이 공식은 모든 카테고리의 AP 점수를 평균합니다.
예를 들어, YOLO11과 같은 컴퓨터 비전 모델이 자동차 0.827, 오토바이 0.679, 트럭 0.355, 버스 0.863, 자전거 0.982의 AP를 달성한다고 가정해 보겠습니다. mAP 공식을 사용하여 이 수치를 더하고 총 클래스 수로 나누면 다음과 같이 계산할 수 있습니다:
mAP = (0.827 + 0.679 + 0.355 + 0.863 + 0.982) ÷ 5 = 0.7432 ≈ 0.743
mAP 점수 0.743은 모델이 모든 객체 클래스에서 얼마나 잘 작동하는지 판단할 수 있는 간단한 솔루션을 제공합니다. 값이 1에 가까울수록 모델이 대부분의 범주에서 정확하다는 것을 의미하며, 값이 낮을수록 일부 범주에서 어려움을 겪고 있음을 나타냅니다.
이제 AP와 mAP가 계산되는 방식과 그 구성 요소에 대해 더 잘 이해했으니, 컴퓨터 비전에서 이 두 가지의 중요성에 대해 간략히 살펴보겠습니다:
다음으로 실제 컴퓨터 비전 사용 사례를 구축할 때 mAP와 같은 주요 메트릭이 어떻게 도움이 되는지 살펴보겠습니다.
자율주행차의 경우 물체 감지는 보행자, 도로 표지판, 자전거 운전자, 차선 표시를 식별하는 데 매우 중요합니다. 예를 들어, 어린이가 갑자기 길을 건너는 경우 차량은 몇 초 안에 물체(어린이)를 감지하고 위치를 파악한 후 움직임을 추적하고 필요한 조치(브레이크 작동)를 취해야 합니다.
YOLO11과 같은 모델은 이러한 위험성이 높은 시나리오에서 실시간 물체 감지를 위해 설계되었습니다. 이러한 경우 맵은 안전의 중요한 척도가 됩니다.
mAP 점수가 높을수록 시스템이 어린이를 빠르게 감지하고 정확하게 위치를 파악하여 최소한의 지연으로 제동을 작동합니다. mAP가 낮으면 어린이를 다른 작은 물체와 혼동하는 등 감지를 놓치거나 위험한 오분류가 발생할 수 있습니다.
마찬가지로 소매업에서도 객체 감지 모델을 사용하여 재고 모니터링 및 결제 프로세스와 같은 작업을 자동화할 수 있습니다. 고객이 셀프 계산대에서 제품을 스캔할 때 감지 오류로 인해 불만이 발생할 수 있습니다.
mAP 점수가 높으면 상품이 빽빽하게 포장되어 있어도 모델이 유사한 상품을 정확하게 구분하고 정확한 경계 상자를 그릴 수 있습니다. mAP 점수가 낮으면 혼동이 발생할 수 있습니다. 예를 들어, 모델이 오렌지 주스 병을 시각적으로 유사한 사과 주스 병으로 착각하면 잘못된 청구와 부정확한 재고 보고서가 발생할 수 있습니다.
YOLO11과 같은 모델과 통합된 리테일 시스템은 실시간으로 제품을 감지하고, 재고와 대조하여 확인하고, 백엔드 시스템을 즉시 업데이트할 수 있습니다. 빠르게 변화하는 리테일 환경에서 mAP는 정확하고 안정적인 운영을 유지하는 데 중요한 역할을 합니다.
의료 분야의 진단 정확도 향상은 의료 영상에서 정밀한 검출에서 시작됩니다. YOLO11과 같은 모델은 방사선 전문의가 의료 스캔에서 종양, 골절 또는 기타 이상 징후를 발견하는 데 도움을 줄 수 있습니다. 여기서 평균 평균 정밀도는 모델의 임상적 신뢰성을 평가하는 데 필수적인 지표입니다.
mAP가 높다는 것은 모델이 높은 재현율(실제 문제를 가장 많이 식별)과 높은 정밀도(오경보 방지)를 모두 달성한다는 의미이며, 이는 임상 의사 결정에 매우 중요한 요소입니다. 또한, 의료 분야에서는 매우 정확한 탐지를 보장하기 위해 IoU 임계값을 매우 높게 설정(0.85 또는 0.90)하는 경우가 많습니다.
그러나 mAP 점수가 낮으면 문제가 발생할 수 있습니다. 모델이 종양을 놓친다면 진단이 지연되거나 잘못된 치료로 이어질 수 있습니다.
평균 정밀도를 사용하여 객체 감지 모델을 평가할 때 얻을 수 있는 주요 이점은 다음과 같습니다:
mAP 지표를 사용하면 다양한 이점이 있지만 고려해야 할 몇 가지 제한 사항이 있습니다. 다음은 고려해야 할 몇 가지 요소입니다:
평균 평균 정밀도는 단순한 기술 점수가 아니라 모델의 잠재적인 실제 성능을 반영한다는 사실을 확인했습니다. 자율주행 차량 시스템에서든 소매점 계산대에서든 높은 맵 점수는 모델의 성능과 실제 준비 상태를 나타내는 신뢰할 수 있는 지표로 작용합니다.
mAP는 필수적이고 영향력 있는 지표이기는 하지만, 균형 잡힌 평가 전략의 일부로 보아야 합니다. 의료 및 자율 주행과 같은 중요한 애플리케이션의 경우 mAP에만 의존하는 것만으로는 충분하지 않습니다.
추론 속도(모델이 예측하는 속도), 모델 크기(엣지 디바이스 배포에 미치는 영향), 정성적 오류 분석(모델이 저지르는 실수 유형 이해)과 같은 추가 요소도 고려해야 시스템이 안전하고 효율적이며 의도한 목적에 진정으로 부합하는지 확인할 수 있습니다.
컴퓨터 비전에 대해 자세히 알아보려면 성장하는 커뮤니티와 GitHub 리포지토리에 참여하세요. 솔루션 페이지에서 농업 분야의 컴퓨터 비전과 물류 분야의 AI 적용 사례에 대해 알아보세요. 지금 바로 라이선스 옵션을 확인하여 나만의 컴퓨터 비전 모델을 시작하세요!