머신 러닝의 정확도 대 정밀도 대 리콜

아비라미 비나

6분 읽기

2025년 8월 20일

머신 러닝의 정확도, 정밀도, 리콜에 대해 알아보세요. 혼동 매트릭스, F1 점수 및 이러한 중요한 평가 지표를 사용하는 방법을 살펴보세요.

머신러닝(ML)은 데이터로부터 학습하는 시스템을 만드는 데 중점을 둔 인공 지능(AI)의 한 분야입니다. 머신러닝은 기계가 이미지를 해석하는 컴퓨터 비전과 인간의 언어를 이해하고 생성하는 자연어 처리 등 다른 많은 AI 분야에서 핵심적인 역할을 담당합니다.

이러한 AI 모델은 종종 딥러닝 기술을 사용하여 데이터로부터 예측을 수행합니다. 이러한 시스템은 매우 효과적일 수 있지만 항상 정확한 예측을 도출하는 것은 아닙니다. 어떤 결과는 정확할 수 있지만 어떤 결과는 목표를 놓칠 수도 있습니다. 

이러한 오류가 어떻게 발생하는지 파악하는 것은 모델의 성능을 평가하는 데 있어 핵심적인 부분입니다. 성능을 측정하기 위해 모델 평가 메트릭을 사용할 수 있습니다. 

일반적인 평가 지표로는 정확도(전반적인 정확도), 정밀도(양성 예측의 신뢰도), 재인용도(모델이 실제 양성을 얼마나 잘 식별하는지)가 있습니다. 언뜻 비슷해 보이지만 각 지표는 모델 행동의 다른 부분에 초점을 맞추고 있습니다. 

이 글에서는 이러한 각 AI 모델 성능 지표를 자세히 살펴보겠습니다. 또한 이러한 지표들이 서로 어떻게 연관되어 있는지, 그리고 사용 사례에 적합한 지표를 선택하는 방법도 살펴봅니다. 시작해 보겠습니다!

머신 러닝에서 중요한 모델 평가 메트릭

머신러닝 모델이 처음에는 잘 작동하는 것처럼 보일 수 있습니다. 하지만 올바른 평가 지표가 없으면 그 결과가 얼마나 정확한지 파악하기 어렵습니다. 이러한 메트릭은 모델 평가에 구조를 부여하고 핵심 질문에 답하는 데 도움이 됩니다: 모델의 예측이 주어진 작업에 유용하고 신뢰할 수 있는가?

정확도, 정밀도, 회상률과 같은 메트릭은 AI 개발자가 모델이 얼마나 잘 작동하는지 측정할 수 있는 명확한 방법을 제공합니다. 예를 들어, 여러 모델을 비교할 때 이러한 메트릭을 사용하면 특정 작업에 가장 적합한 모델을 확인할 수 있습니다. 이러한 메트릭은 성능을 평가하고 AI 프로젝트의 목표에 가장 적합한 모델을 선택하는 데 도움이 됩니다.

그림 1. 모델 교육 및 평가 워크플로(출처)

이러한 메트릭은 또한 성능 비교를 더욱 객관적으로 만들어 줍니다. 추측이나 불완전한 관찰에 의존하는 대신 다양한 상황에서 모델이 어떻게 작동하는지에 대한 측정 가능한 인사이트를 제공합니다. 이를 통해 각 상황에서 성능의 어떤 측면이 가장 중요한지 강조합니다.

예를 들어, 메트릭의 선택은 종종 애플리케이션에 따라 달라집니다. AI 의료 애플리케이션에서는 일부 부정 사례가 실수로 표시되더라도 가능한 한 많은 양성 사례를 식별하는 것이 목표이기 때문에 리콜이 중요합니다. 반면 이메일 스팸 필터는 정상적인 이메일을 스팸으로 잘못 표시하지 않기 위해 정확도를 우선시할 수 있습니다.

혼동 매트릭스: 분류 메트릭의 기초

혼동 행렬은 AI 모델을 평가하는 데 기본이 되는 2×2 표입니다. 실제 결과와 예측 결과(모델이 제공하는 답변)를 비교하여 예측을 네 가지 범주로 정리합니다. 

이 비교는 모델 성능에 대한 자세한 보기를 제공합니다. 이는 매트릭스의 값에서 직접 계산되는 정확도 및 회수율과 같은 주요 평가 지표의 기초를 형성합니다.

표의 행은 실제 수업을 나타내고 열은 예측된 수업을 나타냅니다. 각 셀은 해당 카테고리의 결과 수를 나타냅니다. 간단히 말해, 얼마나 많은 예측이 정확했는지와 모델이 범한 오류의 유형을 보여줍니다.

혼동 매트릭스는 데이터가 불균형할 때, 즉 일부 카테고리에 다른 카테고리보다 더 많은 예가 있을 때 특히 유용합니다. 또한 실수 유형에 따라 비용이 달라지는 경우에도 유용합니다. 

예를 들어 사기 탐지에서는 사기 활동을 포착하는 것이 중요하지만 실제 거래를 잘못 플래그 지정하는 것도 문제를 일으킬 수 있습니다. 매트릭스는 각 유형의 오류가 얼마나 자주 발생하는지 명확하게 보여줍니다.

혼동 행렬의 요소

다음은 혼동 매트릭스의 다양한 요소에 대한 개요입니다:

  • 진양성(TP): 모델이 양성 인스턴스를 올바르게 예측하면 이를 정탐으로 기록합니다. 예를 들어 컴퓨터 비전 모델이 이미지에서 차량을 올바르게 분류하는 경우입니다.

  • 진정한 네거티브(TN): 진정한 네거티브는 모델이 네거티브 인스턴스를 올바르게 식별할 때 발생합니다. 예를 들어 이메일 분류기가 일반 메시지를 스팸이 아닌 것으로 표시하는 경우입니다.

  • 오탐(FP): 모델이 실제로는 부정적인 인스턴스에 대해 긍정적인 결과를 잘못 예측하는 경우 오탐이 발생합니다. 유형 I 오류라고도 하는 이 오류는 사기 탐지 시스템이 유효한 거래를 사기 거래로 표시할 때 발생할 수 있습니다.

  • 거짓 음성(FN): 위음성은 모델이 양성 사례를 감지하지 못하고 음성으로 잘못 예측할 때 기록됩니다. 유형 II 오류라고도 하며, 진단 도구가 실제로 질병이 있는 환자의 질병을 놓칠 때 발생할 수 있습니다.
그림 2. 혼동 행렬의 요소(출처)

혼동 행렬의 시각적 표현 및 해석

혼동 행렬은 격자 형식으로 표시됩니다. 세로 축에는 실제 클래스가 표시되고 가로 축에는 예측된 클래스가 표시됩니다. 올바른 예측은 대각선을 따라 표시되며, 정답과 오답을 나타냅니다.

오류는 대각선 바깥에 위치하여 오탐과 오탐을 포괄합니다. 이러한 구조를 통해 강점과 약점을 쉽게 파악할 수 있습니다.

머신러닝에서 정확도란 무엇인가요?

정확도는 머신러닝 모델의 성능을 평가하는 데 가장 널리 사용되는 지표 중 하나입니다. 정확도는 모든 클래스에서 예측이 얼마나 자주 정확한지를 측정합니다. 즉, 간단한 질문에 대한 답변입니다: AI 모델이 예측한 모든 예측 중 몇 개가 맞았나요?

정확도 공식은 정확한 예측 수(정탐과 정탐 모두 포함)를 총 예측 수로 나눈 값입니다. 정확도는 계산이 간단하고 이해하기 쉬우므로 모델 평가의 일반적인 출발점이 됩니다.

일반적으로 정확도는 균형 잡힌 데이터 집합을 처리할 때 신뢰할 수 있습니다. 그러나 한 클래스가 다른 클래스를 지배하는 불균형 데이터 세트에서는 정확도가 종종 오해의 소지가 있을 수 있습니다. 항상 다수 클래스를 예측하는 모델이 다른 소수 클래스를 감지하지 못하면서 높은 정확도 점수를 얻을 수 있습니다.

예를 들어, 보행자가 포함된 이미지 데이터 세트에서 모든 이미지에 대해 "보행자 없음"을 예측하는 모델은 여전히 높은 정확도를 달성하지만 실제 보행자를 완전히 감지하지 못할 수 있습니다.

정확도만으로는 모델이 어떤 종류의 실수를 저지르는지, 얼마나 자주 발생하는지 알 수 없기 때문입니다. 그렇기 때문에 AI 모델이 얼마나 잘 작동하는지 완전히 이해하려면 정확도 및 회상률과 같은 메트릭도 살펴보는 것이 중요합니다.

정밀도에 대해 자세히 알아보기: 오경보 최소화하기

정확도는 모델의 긍정적인 예측의 정확도를 측정하는 핵심 평가 지표입니다. 긍정으로 예측된 모든 사례 중 몇 개가 맞았나요?

정밀도 공식은 정탐 수를 정탐과 오탐의 합으로 나눈 값입니다. 정탐 예측이 잘못된 것으로 판명될 경우 비용이 많이 드는 경우 특히 중요합니다.

그림 3. 정확도와 정밀도 비교.(출처)

예를 들어, 사기 탐지에서 정확도가 낮은 모델은 많은 유효한 거래를 사기 거래로 표시하여 사용자와 지원팀 모두에게 불필요한 문제를 일으킬 수 있습니다. 정밀도가 높은 모델은 플래그가 지정된 거래가 실제 사기일 가능성이 더 높은지 확인하여 이러한 위험을 줄입니다.

정확도가 높은 것은 좋지만, 정확도에 지나치게 집중하는 모델은 매우 선별적이 되어 실제 양성 사례를 놓칠 수 있습니다. 그렇기 때문에 성능의 균형을 유지하기 위해 정확도 메트릭을 리콜과 함께 확인하는 경우가 많습니다.

리콜이란 무엇인가요?

리콜은 모델이 실제 양성 사례를 얼마나 잘 식별하는지 측정하는 데 사용되는 지표입니다. 민감도 또는 진양성률이라고도 하며, 질문에 대한 답을 제공합니다: 실제 양성 사례 중 모델이 올바르게 탐지한 사례는 몇 건인가요?

리콜 공식은 진양성 수를 진양성과 오탐의 합으로 나눈 값입니다. 리콜 점수가 높다는 것은 모델이 데이터에서 대부분의 실제 양성 사례를 포착하고 있음을 의미합니다. 

리콜은 질병을 발견하지 못하면 치료가 지연되고 환자가 위험에 처할 수 있는 의료 산업에서 필수적입니다. 일부 음성 사례가 잘못 플래그가 지정되더라도 모든 실제 사례를 식별하는 것이 최우선 과제입니다.

하지만 회상률에만 초점을 맞춘 모델은 너무 많은 오탐을 표시하여 정확도를 낮추고 모델의 전반적인 효율성을 떨어뜨릴 수 있습니다. 안정적인 AI 모델 성능을 위해서는 정확도와 재현율의 균형을 맞추는 것이 중요합니다.

균형 잡기: 정확도와 리콜의 균형

정확도와 회상률은 종종 반대 방향으로 움직입니다. 한쪽이 향상되면 다른 한쪽은 저하될 수 있습니다. 이러한 상충 관계는 머신러닝 작업에서 흔히 발생하는 문제입니다.

고정밀 모델은 확신이 있을 때만 긍정적인 것으로 예측합니다. 이렇게 하면 오경보는 줄어들지만 실제 양성을 놓칠 수 있어 정확도가 낮아집니다. 모든 양성을 잡아내려고 하는 모델은 정확도는 높지만 오경보가 더 많이 발생하여 정확도가 낮아집니다.

모델의 결정 임계값을 조정하면 이러한 트레이드오프가 더 명확해집니다. 임계값은 시스템이 점수나 확률을 액션이나 레이블로 전환하는 데 사용하는 컷오프입니다. 임계값을 낮추면 시스템이 더 자주 긍정적으로 작동하여 정확도를 높일 수 있지만 정확도는 떨어질 수 있습니다. 임계값을 높이면 그 반대의 효과가 발생하여 모델이 더 적은 수의 긍정을 예측하고 정확도는 향상되지만 일반적으로 회수율은 떨어집니다.

스팸 탐지 작업을 하고 있다고 가정해 보겠습니다. 이 모델은 스팸이 받은 편지함으로 유입될 위험과 실제 이메일을 차단할 위험의 균형을 맞춰야 합니다. 엄격한 필터는 여전히 일부 스팸을 놓칠 수 있고, 더 관대한 필터는 실수로 합법적인 메시지를 차단할 수 있습니다. 적절한 균형은 사용 사례와 각 오류 유형에 따른 비용에 따라 달라집니다.

정밀도-리콜 곡선의 중요성

정확도-회상률 곡선 또는 PR 곡선은 모델의 결정 임계값이 변경됨에 따라 정확도와 회상률이 어떻게 변하는지를 보여줍니다. 각 점은 둘 사이의 서로 다른 절충점을 나타냅니다. PR 곡선은 한 클래스의 빈도가 훨씬 낮은 불균형 데이터 세트에 특히 유용합니다. 

또한 모델이 다양한 의사 결정 임계값에서 긍정과 부정을 얼마나 잘 구분하는지를 보여주는 수신자 운영 특성(ROC) 곡선보다 더 의미 있는 인사이트를 제공합니다. 정밀도와 정확도가 모두 높은 모델은 일반적으로 오른쪽 상단 모서리 근처에 머무는 정밀도-회상률 곡선을 가지며, 이는 일반적으로 이상적입니다.

F1 점수를 소개합니다: 균형을 위한 통합 지표

F1-점수는 정확도와 회상도 사이의 균형을 포착하는 단일 값을 제공합니다. F1 점수는 정확도와 회수율의 곱을 정확도와 회수율의 합으로 나눈 값의 두 배로 계산됩니다. 오탐과 오탐이 모두 중요할 때 유용하며, 불균형한 데이터 세트로 작업하거나 모델 성능에 대한 균형 잡힌 시각이 필요할 때 유용합니다.

그림 4. 정밀도 및 리콜을 사용한 F1 점수 계산(출처)

정확도, 정밀도, 기억력 그 이상

정확도, 정밀도, 회수율도 중요하지만, 모델 유형과 데이터 세트 특성에 따라 다른 메트릭을 통해 추가적인 인사이트를 얻을 수 있습니다. 

다음은 성능의 다양한 측면을 평가하는 데 도움이 되는 몇 가지 일반적으로 사용되는 메트릭입니다:

  • 특이도: 모델이 실제 음성을 얼마나 잘 식별하는지 측정합니다. 오탐을 피하는 것이 중요할 때 유용합니다.

  • AUC: AUC: 곡선 아래 면적(AUC)은 모델이 클래스를 얼마나 잘 구분할 수 있는지를 반영하는 단일 점수를 제공합니다.

  • 로그 손실: 로그 손실: 로그 손실은 예측을 할 때 모델의 신뢰도를 측정하는 데 사용되며, 높은 신뢰도로 잘못된 예측을 할 경우 더 많은 페널티를 부여합니다. 여기서 신뢰도는 모델이 예측에 대해 얼마나 확신하는지를 나타냅니다.

  • 다중 레이블 평가: 다중 레이블 작업에서 메트릭은 전체 모델 성능을 반영하기 위해 레이블 간에 평균을 구합니다.

컴퓨터 비전에 정확도, 정밀도, 리콜 적용하기

이제 정확도, 정밀도 및 리콜에 대해 더 명확하게 이해했으니 컴퓨터 비전에서 이러한 메트릭이 어떻게 적용되는지 살펴보겠습니다.

Ultralytics YOLO11과 같은 컴퓨터 비전 모델은 이미지에 어떤 물체가 있는지 식별하고 경계 상자를 사용하여 물체의 위치를 찾는 물체 감지와 같은 작업을 지원합니다. 각 예측에는 객체 레이블과 위치가 모두 포함되므로 단순히 레이블이 올바른지 확인하는 것보다 평가가 더 복잡해집니다.

그림 5. 물체 감지를 위해 Ultralytics YOLO11을 사용한 예시.(출처)

진열대에 있는 제품을 자동으로 추적하기 위해 카메라를 사용하는 소매업 애플리케이션을 생각해 보세요. 물체 감지 모델은 시리얼 상자, 음료수 캔 또는 물병과 같은 물품을 식별하고 위치를 표시할 수 있습니다. 

이 경우 정밀도는 감지된 항목 중 실제로 얼마나 많은 항목이 올바른지 알려줍니다. 정밀도가 높다는 것은 시스템이 그림자나 배경 물체를 상품으로 분류하는 등의 오탐지를 방지한다는 의미입니다. 회수율은 모델이 진열대에 있는 실제 제품 중 얼마나 많은 제품을 감지했는지 보여줍니다. 리콜률이 높을수록 누락되는 품목이 적으므로 정확한 재고 계산에 매우 중요합니다.

정확도는 여전히 정확도의 일반적인 척도를 제공할 수 있지만, 이러한 환경에서는 몇 개의 제품만 누락되거나 없는 품목을 감지해도 재고 관리에 큰 영향을 미칠 수 있습니다. 그렇기 때문에 개발자는 정밀도, 리콜률, 정확도를 함께 고려하여 시스템이 신뢰할 수 있고 실제 사용에 실용적인지 확인합니다.

정확도, 정밀도 및 리콜: 주요 요점

정확도, 정밀도, 리콜은 각각 머신러닝 모델 성능의 다양한 측면을 보여줍니다. 한 가지 지표에만 의존하는 것은 오해의 소지가 있을 수 있습니다.

혼동 행렬, 정밀도-재콜 곡선, F1 점수와 같은 도구와 메트릭은 장단점을 파악하고 ML 모델 개선에 대한 결정을 내리는 데 도움이 됩니다. 특정 AI 솔루션에 적합한 메트릭 조합을 선택하면 실제 애플리케이션에서 모델이 정확하고 신뢰할 수 있으며 효과적인지 확인할 수 있습니다.

성장하는 커뮤니티를 살펴보세요! AI에 대해 자세히 알아보려면 GitHub 리포지토리를 확인하세요. 컴퓨터 비전 프로젝트를 시작할 준비가 되셨나요? 라이선스 옵션을 살펴보세요. 솔루션 페이지를 방문하여 농업 분야의 AI와 로봇 공학 분야의 비전 AI에 대해 알아보세요! 

인공지능의 미래
를 함께 만들어 갑시다!

머신 러닝의 미래와 함께하는 여정 시작하기

무료로 시작하기
링크가 클립보드에 복사됨