가이드

머신러닝에서의 정확도 vs 정밀도 vs 재현율

머신러닝에서의 정확도, 정밀도, 재현율에 대해 알아보십시오. 혼동 행렬, F1 점수, 그리고 이러한 필수 평가 지표를 활용하는 방법을 탐구해 보십시오.

ABAbirami Vina

6 min readAugust 20, 2025

머신러닝(ML)은 데이터로부터 학습하는 시스템을 구축하는 데 중점을 둔 인공지능(AI)의 한 분야입니다. 머신러닝은 기계가 이미지를 해석하는 computer vision을 비롯하여, 인간의 언어를 이해하고 생성하는 자연어 처리 등 다른 많은 AI 영역에서 중심적인 역할을 합니다.

종종 이러한 AI 모델은 딥러닝 기술을 사용하여 데이터로부터 예측을 수행합니다. 이러한 시스템은 매우 효과적일 수 있지만, 항상 올바른 예측 결과를 내놓지는 않습니다. 어떤 출력은 정확할 수 있는 반면, 어떤 출력은 목표에서 벗어나기도 합니다.

이러한 오류가 어떻게 발생하는지 파악하는 것은 모델의 성능을 평가하는 데 있어 핵심적인 부분입니다. 성능을 측정하기 위해 model evaluation metrics를 사용할 수 있습니다.

일반적인 평가 지표로는 정확도(전반적인 정확성), 정밀도(긍정적 예측의 신뢰성), 재현율(모델이 실제 긍정 사례를 얼마나 잘 식별하는지)이 있습니다. 처음에는 비슷해 보일 수 있지만, 각 지표는 모델 동작의 서로 다른 부분에 초점을 맞춥니다.

본 글에서는 각 AI 모델 성능 지표를 자세히 살펴보겠습니다. 또한 이 지표들이 서로 어떻게 연관되어 있는지, 그리고 귀하의 사용 사례에 맞는 적절한 지표를 선택하는 방법도 알아볼 것입니다. 시작해 보겠습니다!

Link to this section머신러닝에서 모델 평가 지표의 중요성#

machine learning 모델은 처음에는 성능이 좋아 보일 수 있습니다. 그러나 적절한 평가 지표가 없으면 결과가 얼마나 정확한지 이해하기 어렵습니다. 이러한 지표들은 모델 평가에 구조를 제공하며, "모델의 예측이 주어진 작업에 유용하고 신뢰할 수 있는가?"라는 핵심 질문에 답하는 데 도움을 줍니다.

정확도, 정밀도, 재현율과 같은 지표는 AI 개발자에게 모델이 얼마나 잘 작동하는지 측정할 수 있는 명확한 방법을 제공합니다. 예를 들어, 서로 다른 모델을 비교할 때 이러한 지표를 통해 특정 작업에 가장 적합한 모델을 확인할 수 있습니다. 이는 성능을 평가하고 AI 프로젝트 목표에 가장 잘 맞는 모델을 선택하는 데 도움을 줍니다.

모델 학습 및 평가 워크플로

그림 1. 모델 학습 및 평가 워크플로 (Source)

이러한 지표들은 또한 성능 비교를 더욱 객관적으로 만들어 줍니다. 추측이나 불완전한 관찰에 의존하는 대신, 모델이 다양한 상황에서 어떻게 동작하는지에 대한 측정 가능한 통찰력을 제공합니다. 이를 통해 각 맥락에서 어떤 성능 측면이 가장 중요한지 강조할 수 있습니다.

예를 들어, 지표 선택은 종종 애플리케이션에 따라 달라집니다. AI healthcare applications에서는 가능한 한 많은 긍정 사례를 식별하는 것이 목표이므로 재현율이 중요합니다. 일부 부정 사례가 실수로 플래그되더라도 상관없습니다. 반면, 이메일 스팸 필터는 합법적인 이메일을 스팸으로 잘못 분류하지 않기 위해 정밀도를 우선시할 수 있습니다.

Link to this section혼동 행렬(Confusion matrix): 분류 지표의 기초#

confusion matrix는 AI 모델을 평가하는 데 근간이 되는 2x2 테이블입니다. 이 행렬은 실제 결과와 예측 결과(모델이 제공한 답변)를 비교하여 예측을 네 가지 범주로 분류합니다.

이 비교는 모델의 성능에 대한 자세한 시각을 제공합니다. 이는 행렬 내의 값에서 직접 계산되는 정밀도 및 재현율과 같은 핵심 평가 지표의 기반이 됩니다.

테이블의 행은 실제 클래스를 나타내고, 열은 예측된 클래스를 나타냅니다. 각 셀은 해당 범주에 속하는 결과의 개수를 보여줍니다. 간단히 말해, 모델이 얼마나 많은 예측을 올바르게 수행했는지와 어떤 유형의 오류를 범했는지를 나타냅니다.

혼동 행렬은 데이터가 불균형할 때, 즉 특정 범주가 다른 범주보다 훨씬 더 많은 예시를 가질 때 특히 유용합니다. 또한 서로 다른 유형의 실수가 각기 다른 비용을 발생시킬 때도 유용합니다.

예를 들어, 사기 탐지의 경우 사기 행위를 포착하는 것이 중요하지만, 실제 거래를 잘못 플래그하는 것도 문제를 일으킬 수 있습니다. 혼동 행렬은 각 유형의 오류가 얼마나 자주 발생하는지 명확하게 보여줍니다.

Link to this section혼동 행렬의 요소#

다음은 혼동 행렬의 다양한 요소에 대한 개요입니다.

참 긍정(TP): 모델이 긍정 사례를 올바르게 예측하면 참 긍정으로 기록됩니다. 예를 들어, computer vision model이 이미지 속 차량을 올바르게 분류하는 경우가 이에 해당합니다.
참 부정(TN): 모델이 부정 사례를 올바르게 식별하면 참 부정입니다. 예를 들어, 이메일 분류기가 일반 메시지를 스팸이 아니라고 표시하는 경우가 있습니다.
거짓 긍정(FP): 실제로는 부정인 사례에 대해 모델이 긍정적인 결과를 잘못 예측하면 거짓 긍정이 생성됩니다. 제1종 오류라고도 하며, 사기 탐지 시스템이 유효한 거래를 사기로 플래그할 때 발생할 수 있습니다.
거짓 부정(FN): 모델이 긍정 사례를 탐지하지 못하고 부정으로 잘못 예측하면 거짓 부정으로 기록됩니다. 제2종 오류라고도 하며, 실제로 아픈 환자의 질병을 진단 도구가 놓치는 경우에 발생할 수 있습니다.

혼동 행렬의 구성 요소

그림 2. 혼동 행렬의 요소 (Source)

Link to this section혼동 행렬의 시각적 표현 및 해석#

혼동 행렬은 그리드 형식으로 표시됩니다. 세로축은 실제 클래스를 나타내고, 가로축은 예측된 클래스를 나타냅니다. 올바른 예측은 대각선을 따라 나타나며, 이는 참 긍정과 참 부정을 의미합니다.

오류는 대각선 밖에 위치하며 거짓 긍정과 거짓 부정을 포함합니다. 이 구조 덕분에 강점과 약점을 쉽게 파악할 수 있습니다.

Link to this section머신러닝에서의 정확도란 무엇인가?#

Accuracy는 머신러닝 모델의 성능을 평가하는 데 가장 널리 사용되는 지표 중 하나입니다. 이는 모든 클래스에 걸쳐 예측이 얼마나 자주 올바른지를 측정합니다. 다시 말해, "AI 모델이 수행한 모든 예측 중에서 몇 퍼센트가 옳았는가?"라는 간단한 질문에 답합니다.

정확도의 공식은 올바른 예측의 수(참 긍정과 참 부정 모두 포함)를 전체 예측의 수로 나눈 값입니다. 정확도는 계산하기 간단하고 이해하기 쉬워 모델 평가의 일반적인 시작점이 됩니다.

일반적으로 정확도는 균형 잡힌 데이터셋을 다룰 때 신뢰할 수 있습니다. 그러나 하나의 클래스가 다른 클래스보다 압도적인 불균형 데이터셋에서는 정확도가 오해의 소지를 줄 수 있습니다. 다수 클래스만 항상 예측하는 모델은 다른 소수 클래스를 탐지하지 못하더라도 높은 정확도 점수를 얻을 수 있기 때문입니다.

예를 들어, 보행자가 포함된 이미지가 거의 없는 이미지 데이터셋에서 모든 이미지에 대해 "보행자 없음"이라고 예측하는 모델은 높은 정확도를 달성할 수 있지만, 실제 보행자를 탐지하는 데는 완전히 실패할 것입니다.

이는 정확도만으로는 모델이 어떤 종류의 실수를 하는지, 얼마나 자주 하는지 알 수 없기 때문입니다. 그렇기 때문에 AI 모델이 얼마나 잘 작동하는지 완벽하게 이해하려면 정밀도와 재현율 같은 지표를 함께 살펴보는 것이 중요합니다.

Link to this section정밀도(Precision) 심층 분석: 오경보 최소화#

Precision은 모델의 긍정적 예측의 정확성을 측정하는 핵심 평가 지표입니다. 이 지표는 "긍정으로 예측된 모든 사례 중에서 실제로 얼마나 올바른가?"라는 질문에 답합니다.

정밀도 공식은 참 긍정의 수를 참 긍정과 거짓 긍정의 합으로 나눈 것입니다. 이는 긍정 예측이 틀렸을 경우 비용이 많이 드는 상황에서 특히 중요합니다.

정확도와 정밀도 비교

그림 3. 정확도와 정밀도 비교. (Source)

예를 들어, 사기 탐지에서 정밀도가 낮은 모델은 많은 유효한 거래를 사기로 플래그하여 사용자와 지원팀 모두에게 불필요한 문제를 야기할 수 있습니다. 정밀도가 높은 모델은 플래그된 거래가 실제 사기일 가능성을 높여 이러한 위험을 줄여줍니다.

높은 정밀도는 좋지만, 정밀도에 지나치게 집중하는 모델은 매우 선택적이 되어 실제 긍정 사례를 놓칠 수 있습니다. 그렇기 때문에 성능의 균형을 유지하기 위해 정밀도 지표는 종종 재현율과 함께 확인됩니다.

Link to this section재현율(Recall)이란 무엇인가?#

Recall은 모델이 실제 긍정 사례를 얼마나 잘 식별하는지 측정하는 데 사용되는 지표입니다. 민감도(Sensitivity) 또는 참 긍정률(True Positive Rate)이라고도 하며, "전체 실제 긍정 사례 중에서 모델이 얼마나 정확하게 탐지했는가?"라는 질문에 답합니다.

재현율 공식은 참 긍정의 수를 참 긍정과 거짓 부정의 합으로 나눈 것입니다. 높은 재현율 점수는 모델이 데이터 내의 대부분의 실제 긍정 사례를 포착하고 있음을 보여줍니다.

재현율은 질병을 탐지하지 못할 경우 치료가 지연되어 환자를 위험에 빠뜨릴 수 있는 의료와 같은 산업에서 필수적입니다. 일부 부정 사례가 잘못 플래그되더라도 모든 실제 사례를 식별하는 것이 최우선 과제로 남습니다.

하지만 재현율에만 집중하는 모델은 너무 많은 거짓 긍정을 플래그할 수 있으며, 이는 정밀도를 낮추고 모델의 전반적인 효율성을 저해합니다. 재현율과 정밀도의 균형을 맞추는 것은 신뢰할 수 있는 AI model performance를 위해 매우 중요합니다.

Link to this section균형 잡기: 정밀도와 재현율의 트레이드오프#

정밀도와 재현율은 종종 반대 방향으로 움직입니다. 하나가 개선되면 다른 하나는 하락할 수 있습니다. 이러한 트레이드오프는 머신러닝 작업에서 흔히 발생하는 과제입니다.

높은 정밀도를 가진 모델은 확신이 있을 때만 긍정으로 예측합니다. 이는 오경보를 줄이지만 실제 긍정 사례를 놓칠 수 있어 재현율이 낮아집니다. 모든 긍정 사례를 잡으려는 모델은 재현율을 높이지만 오경보의 위험이 커져 정밀도가 낮아집니다.

이 트레이드오프는 모델의 결정 임계값을 조정할 때 더 명확해집니다. 임계값은 시스템이 점수나 확률을 행동 또는 라벨로 전환하기 위해 사용하는 기준점입니다. 임계값을 낮추면 시스템이 더 자주 긍정적으로 행동하게 되어 재현율은 증가할 수 있지만 정밀도는 감소할 수 있습니다. 임계값을 높이면 반대 효과가 나타납니다. 즉, 모델은 더 적은 긍정 사례를 예측하고 정밀도는 개선되지만 재현율은 보통 하락합니다.

스팸 탐지를 예로 들어보겠습니다. 모델은 스팸이 받은 편지함으로 들어올 위험과 실제 이메일을 차단할 위험 사이에서 균형을 맞춰야 합니다. 엄격한 필터는 여전히 일부 스팸을 놓칠 수 있고, 더 관대한 필터는 실수로 합법적인 메시지를 차단할 수 있습니다. 적절한 균형은 사용 사례와 각 오류 유형이 초래하는 비용에 따라 달라집니다.

Link to this section정밀도-재현율 곡선(Precision-recall curve)의 중요성#

정밀도-재현율 곡선 또는 PR 곡선은 모델의 결정 임계값이 변경됨에 따라 정밀도와 재현율이 어떻게 변하는지 보여줍니다. 각 지점은 둘 사이의 서로 다른 트레이드오프를 나타냅니다. PR 곡선은 특정 클래스가 훨씬 덜 빈번한 불균형 데이터셋에 특히 유용합니다.

또한 서로 다른 결정 임계값에서 모델이 긍정과 부정을 얼마나 잘 분리하는지를 보여주는 Receiver Operating Characteristic (ROC) curve보다 더 의미 있는 통찰력을 제공합니다. 높은 정밀도와 높은 재현율을 모두 갖춘 모델은 일반적으로 우상단 모서리에 가까운 정밀도-재현율 곡선을 가지며, 이는 이상적인 결과입니다.

Link to this sectionF1-score 소개: 균형을 위한 복합 지표#

F1-score는 정밀도와 재현율 간의 균형을 담아내는 단일 값을 제공합니다. F1-score는 정밀도와 재현율의 곱에 2를 곱한 값을 정밀도와 재현율의 합으로 나누어 계산합니다. 이는 거짓 긍정과 거짓 부정 모두가 중요할 때 유용하며, 불균형 데이터셋으로 작업하거나 모델 성능에 대한 균형 잡힌 관점이 필요할 때 도움이 됩니다.

정밀도와 재현율을 사용한 F1-score 계산

그림 4. 정밀도와 재현율을 사용한 F1-score 계산 (Source)

Link to this section정확도, 정밀도, 재현율을 넘어#

정확도, 정밀도, 재현율이 필수적이긴 하지만, 다른 지표들은 모델 유형과 데이터셋 특성에 따라 추가적인 통찰력을 제공합니다.

성능의 다양한 측면을 평가하는 데 도움이 되는 일반적으로 사용되는 지표는 다음과 같습니다.

특이도(Specificity): 모델이 실제 부정을 얼마나 잘 식별하는지 측정합니다. 거짓 긍정을 피하는 것이 중요할 때 유용합니다.
AUC: AUC(Area Under the Curve)는 모델이 클래스를 얼마나 잘 구분할 수 있는지를 나타내는 단일 점수를 제공합니다.
로그 손실(Log loss): 로그 손실은 예측을 수행할 때 모델이 얼마나 확신하는지를 측정하며, 높은 확신을 가지고 내린 잘못된 예측에 더 많은 페널티를 부여합니다. 여기서 confidence는 모델이 자신의 예측에 대해 얼마나 확신하는지를 의미합니다.
다중 라벨 평가(Multi-label evaluation): 다중 라벨 작업에서는 전체 모델 성능을 반영하기 위해 라벨별 지표를 평균화합니다.

Link to this section컴퓨터 비전에서 정확도, 정밀도, 재현율 적용하기#

이제 정확도, 정밀도, 재현율에 대해 명확히 이해했으므로, 이러한 지표가 컴퓨터 비전에서 어떻게 적용되는지 살펴보겠습니다.

Ultralytics YOLO11과 같은 컴퓨터 비전 모델은 이미지 속에 어떤 객체가 존재하는지 식별하고 bbox를 사용하여 위치를 찾아내는 객체 탐지(Object detection)와 같은 작업을 지원합니다. 각 예측은 객체 라벨과 위치를 모두 포함하므로, 라벨이 옳은지 확인하는 것보다 평가가 더 복잡합니다.

객체 탐지를 위한 Ultralytics YOLO11 사용 예시

그림 5. 객체 탐지를 위해 Ultralytics YOLO11을 사용하는 예시. (Source)

카메라를 사용하여 선반 위의 제품을 자동으로 추적하는 retail 애플리케이션을 고려해 보십시오. 객체 탐지 모델은 시리얼 상자, 탄산음료 캔, 물병과 같은 항목을 식별하고 그 위치를 표시할 수 있습니다.

이 경우 정밀도는 탐지된 항목 중 실제 올바른 항목이 몇 개인지를 알려줍니다. 높은 정밀도는 시스템이 그림자나 배경 객체를 제품으로 라벨링하는 것과 같은 거짓 긍정을 피하고 있음을 의미합니다. 재현율은 모델이 선반 위의 실제 제품 중 몇 개를 탐지했는지 보여줍니다. 높은 재현율은 놓치는 항목이 적음을 의미하며, 이는 정확한 재고 집계에 매우 중요합니다.

정확도는 여전히 전반적인 정확성을 측정하는 수단을 제공하지만, 이러한 환경에서는 제품을 몇 개 놓치거나 없는 항목을 탐지하는 것만으로도 재고 관리에 큰 영향을 미칠 수 있습니다. 그렇기 때문에 개발자들은 시스템이 실제 환경에서 신뢰할 수 있고 실용적인지 확인하기 위해 정밀도, 재현율, 정확도를 함께 살펴봅니다.

Link to this section정확도, 정밀도, 재현율: 핵심 요약#

정확도, 정밀도, 재현율은 각각 머신러닝 모델 성능의 서로 다른 측면을 보여줍니다. 하나의 지표에만 의존하는 것은 오해의 소지가 있을 수 있습니다.

혼동 행렬, 정밀도-재현율 곡선, F1-score와 같은 도구와 지표는 트레이드오프를 밝혀내고 ML 모델 개선을 위한 의사 결정을 안내하는 데 도움을 줍니다. 특정 AI 솔루션에 적합한 지표 조합을 선택함으로써 모델이 실환경 애플리케이션에서 정확하고 신뢰할 수 있으며 효과적으로 작동하도록 보장할 수 있습니다.

점점 커지는 저희 community를 살펴보세요! AI에 대해 자세히 알아보려면 저희 GitHub repository를 확인해 주십시오. 컴퓨터 비전 프로젝트를 시작할 준비가 되셨나요? 저희의 licensing options을 확인해 보십시오. 또한 저희 솔루션 페이지를 방문하여 AI in agriculture 및 vision AI in robotics를 발견해 보시기 바랍니다!

Explore solutions

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.

머신러닝에서의 정확도 vs 정밀도 vs 재현율

Link to this section머신러닝에서 모델 평가 지표의 중요성#

Link to this section혼동 행렬(Confusion matrix): 분류 지표의 기초#

Link to this section혼동 행렬의 요소#

Link to this section혼동 행렬의 시각적 표현 및 해석#

Link to this section머신러닝에서의 정확도란 무엇인가?#

Link to this section정밀도(Precision) 심층 분석: 오경보 최소화#

Link to this section재현율(Recall)이란 무엇인가?#

Link to this section균형 잡기: 정밀도와 재현율의 트레이드오프#

Link to this section정밀도-재현율 곡선(Precision-recall curve)의 중요성#

Link to this sectionF1-score 소개: 균형을 위한 복합 지표#

Link to this section정확도, 정밀도, 재현율을 넘어#

Link to this section컴퓨터 비전에서 정확도, 정밀도, 재현율 적용하기#

Link to this section정확도, 정밀도, 재현율: 핵심 요약#

Explore solutions

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

미래의 AI를 함께 구축합시다!