머신러닝의 정확도, 정밀도, 재현율에 대해 알아보세요. 혼동 행렬, F1 점수 및 이러한 중요한 평가 지표를 사용하는 방법을 살펴봅니다.

머신러닝의 정확도, 정밀도, 재현율에 대해 알아보세요. 혼동 행렬, F1 점수 및 이러한 중요한 평가 지표를 사용하는 방법을 살펴봅니다.
머신 러닝(ML)은 데이터에서 학습하는 시스템을 만드는 데 중점을 두는 인공 지능(AI)의 한 분야입니다. 머신이 이미지를 해석하는 컴퓨터 비전과 머신이 인간의 언어를 이해하고 생성하는 자연어 처리를 포함하여 다른 많은 AI 영역에서 중심적인 역할을 합니다.
이러한 AI 모델은 종종 딥러닝 기술을 사용하여 데이터로부터 예측합니다. 이러한 시스템은 매우 효과적일 수 있지만 항상 정확한 예측을 생성하는 것은 아닙니다. 일부 결과는 정확할 수 있지만 다른 결과는 목표를 놓칠 수 있습니다.
이러한 오류가 발생하는 방식을 아는 것은 모델 성능을 평가하는 데 중요한 부분입니다. 성능을 측정하기 위해 모델 평가 지표를 사용할 수 있습니다.
일반적인 평가 지표에는 정확도(전반적인 정확성), 정밀도(긍정적 예측의 신뢰성) 및 재현율(모델이 실제 긍정을 얼마나 잘 식별하는지)이 포함됩니다. 처음에는 비슷해 보일 수 있지만 각각 모델 동작의 다른 부분에 중점을 둡니다.
이번 글에서는 이러한 각 AI 모델 성능 지표를 자세히 살펴보겠습니다. 또한 서로 어떻게 관련되어 있는지, 그리고 사용 사례에 맞는 지표를 선택하는 방법에 대해서도 살펴보겠습니다. 그럼 시작해 볼까요!
머신러닝 모델이 처음에는 성능이 좋아 보일 수 있습니다. 그러나 올바른 평가 지표가 없으면 결과가 얼마나 정확한지 이해하기 어렵습니다. 이러한 지표는 모델 평가에 구조를 제공하고 핵심 질문에 답하는 데 도움이 됩니다. 즉, 모델의 예측이 주어진 작업에 유용하고 신뢰할 수 있는가?
정확도, 정밀도 및 재현율과 같은 지표는 AI 개발자에게 모델이 얼마나 잘 작동하는지 측정할 수 있는 명확한 방법을 제공합니다. 예를 들어, 서로 다른 모델을 비교할 때 이러한 지표를 통해 특정 작업에 가장 적합한 모델을 확인할 수 있습니다. 이는 성능을 평가하고 AI 프로젝트의 목표에 가장 적합한 모델을 선택하는 데 도움이 됩니다.
이러한 지표는 또한 성능 비교를 더욱 객관적으로 만듭니다. 추측이나 불완전한 관찰에 의존하는 대신, 다양한 상황에서 모델이 어떻게 작동하는지에 대한 측정 가능한 통찰력을 제공합니다. 이를 통해 각 상황에서 성능의 어떤 측면이 가장 중요한지 강조합니다.
예를 들어, 메트릭 선택은 종종 애플리케이션에 따라 다릅니다. AI 의료 애플리케이션에서는 일부 음성이 잘못 플래그되더라도 가능한 한 많은 양성 사례를 식별하는 것이 목표이기 때문에 재현율이 중요합니다. 대조적으로 이메일 스팸 필터는 합법적인 이메일을 스팸으로 잘못 표시하지 않도록 정밀도를 우선시할 수 있습니다.
오차 행렬은 AI 모델 평가의 기본이 되는 2x2 테이블입니다. 실제 결과와 예측 결과(모델이 제공하는 답변)를 비교하여 예측을 네 가지 범주로 구성합니다.
이 비교는 모델의 성능에 대한 자세한 보기를 제공합니다. 이는 정밀도 및 재현율과 같은 주요 평가 지표의 기초를 형성하며, 이러한 지표는 행렬의 값에서 직접 계산됩니다.
표의 행은 실제 클래스를 나타내고, 열은 예측된 클래스를 나타냅니다. 각 셀은 해당 범주에 속하는 결과의 수를 보여줍니다. 간단히 말해서, 얼마나 많은 예측이 정확했는지와 모델이 만든 오류의 유형을 보여줍니다.
혼동 행렬은 특히 데이터가 불균형할 때 유용합니다. 즉, 일부 범주가 다른 범주보다 훨씬 더 많은 예제를 가지고 있을 때 유용합니다. 또한 서로 다른 유형의 오류에 다른 비용이 발생할 때도 유용합니다.
예를 들어, 사기 탐지에서 사기 행위를 포착하는 것이 중요하지만 실제 거래를 잘못 플래그하면 문제가 발생할 수도 있습니다. 행렬은 각 유형의 오류가 얼마나 자주 발생하는지 명확하게 보여줍니다.
다음은 오차 행렬의 여러 요소에 대한 개요입니다.
오차 행렬은 그리드 형식으로 표시됩니다. 세로 축은 실제 클래스를 나타내고 가로 축은 예측된 클래스를 나타냅니다. 올바른 예측은 대각선을 따라 나타나며, 이는 참 긍정 및 참 부정을 나타냅니다.
오류는 대각선 바깥쪽에 있으며, 거짓 긍정 및 거짓 부정을 포함합니다. 이 구조를 통해 강점과 약점을 쉽게 파악할 수 있습니다.
정확도는 머신 러닝 모델의 성능을 평가하는 데 가장 널리 사용되는 지표 중 하나입니다. 이는 모든 클래스에서 예측이 얼마나 자주 올바른지 측정합니다. 다시 말해, AI 모델이 내린 모든 예측 중에서 얼마나 많은 예측이 옳았는지에 대한 간단한 질문에 답합니다.
정확도(Accuracy)를 구하는 공식은 올바른 예측 수(참 긍정과 참 부정 모두 포함)를 총 예측 수로 나눈 값입니다. 정확도는 계산하기 쉽고 이해하기 쉬워서 모델 평가의 일반적인 시작점으로 사용됩니다.
일반적으로 균형 잡힌 데이터 세트를 다룰 때는 정확도가 신뢰할 만합니다. 그러나 한 클래스가 다른 클래스를 지배하는 불균형 데이터 세트에서는 정확도가 종종 오해를 불러일으킬 수 있습니다. 다수 클래스만 계속 예측하는 모델은 소수 클래스를 감지하지 못하면서도 높은 정확도 점수를 얻을 수 있습니다.
예를 들어, 이미지 데이터 세트에서 보행자가 포함된 이미지가 몇 개 없는 경우 모든 이미지에 대해 '보행자 없음'을 예측하는 모델은 여전히 높은 정확도를 달성할 수 있지만 실제 보행자를 감지하지 못할 수 있습니다.
정확도만으로는 모델이 어떤 종류의 실수를 얼마나 자주 하는지 알 수 없기 때문입니다. AI 모델이 얼마나 잘 작동하는지 완전히 이해하려면 정밀도 및 재현율과 같은 지표도 함께 살펴보는 것이 중요합니다.
정밀도(Precision)는 모델의 긍정적 예측의 정확성을 측정하는 핵심 평가 지표입니다. 이는 다음과 같은 질문에 대한 답변을 제공합니다. 긍정적으로 예측된 모든 인스턴스 중에서 얼마나 많은 수가 정확했습니까?
정밀도 공식은 참 긍정 수를 참 긍정 수와 거짓 긍정 수의 합으로 나눈 값입니다. 긍정적 예측이 잘못된 것으로 판명될 경우 비용이 많이 들 때 특히 중요합니다.
예를 들어, 사기 탐지에서 정밀도가 낮은 모델은 많은 유효한 거래를 사기로 표시하여 사용자와 지원 팀 모두에게 불필요한 문제를 일으킬 수 있습니다. 정밀도가 높은 모델은 플래그가 지정된 거래가 실제 사기일 가능성이 높도록 하여 이러한 위험을 줄입니다.
높은 정밀도가 좋지만, 정밀도에 너무 집중하는 모델은 매우 선택적이 되어 실제 긍정적인 사례를 놓칠 수 있습니다. 그렇기 때문에 성능 균형을 유지하기 위해 정밀도 메트릭을 재현율과 함께 확인하는 경우가 많습니다.
재현율(Recall)은 모델이 실제 긍정 사례를 얼마나 잘 식별하는지 측정하는 데 사용되는 지표입니다. 이는 민감도 또는 참 긍정 비율로 알려져 있으며, 다음과 같은 질문에 대한 답변을 제공합니다. 실제 긍정 인스턴스 중에서 모델이 얼마나 많이 올바르게 감지했습니까?
재현율(Recall)을 구하는 공식은 참 긍정 수를 참 긍정 수와 거짓 부정 수를 더한 값으로 나눈 값입니다. 높은 재현율 점수는 모델이 데이터에서 실제 긍정 사례를 대부분 포착하고 있음을 나타냅니다.
재현율은 상태 감지에 실패할 경우 치료를 지연시키고 환자를 위험에 빠뜨릴 수 있는 의료와 같은 산업에서 필수적입니다. 일부 부정적인 사례가 잘못 플래그되더라도 모든 실제 사례를 식별하는 것이 최우선 과제입니다.
그러나 재현율에만 초점을 맞춘 모델은 너무 많은 거짓 긍정을 표시하여 정밀도를 낮추고 모델의 전체 효율성을 저해할 수 있습니다. 신뢰할 수 있는 AI 모델 성능을 위해서는 재현율과 정밀도의 균형을 맞추는 것이 중요합니다.
정밀도와 재현율은 종종 반대 방향으로 움직입니다. 하나가 향상되면 다른 하나는 저하될 수 있습니다. 이러한 상충 관계는 머신 러닝 작업에서 흔히 발생하는 문제입니다.
정밀도가 높은 모델은 확신이 있는 경우에만 어떤 것을 긍정적으로 예측합니다. 이렇게 하면 오경보가 줄어들지만 실제 긍정적인 것을 놓칠 수 있으며, 이는 재현율을 낮춥니다. 모든 긍정적인 것을 잡으려고 하는 모델은 재현율을 높이지만 더 많은 오경보의 위험이 있으며, 이는 정밀도를 낮춥니다.
이러한 상충 관계는 모델의 결정 임계값을 조정할 때 더욱 분명해집니다. 임계값은 시스템이 점수 또는 확률을 행동 또는 레이블로 전환하는 데 사용하는 기준점입니다. 임계값을 낮추면 시스템이 더 자주 긍정적으로 작동하여 재현율이 증가할 수 있지만 정밀도는 감소할 수 있습니다. 임계값을 높이면 반대 효과가 나타납니다. 모델은 긍정적인 예측을 줄여 정밀도는 향상되지만 일반적으로 재현율은 떨어집니다.
스팸 탐지 작업을 하고 있다고 가정해 보겠습니다. 모델은 스팸을 받은 편지함으로 보내는 위험과 실제 이메일을 차단하는 위험 사이에서 균형을 맞춰야 합니다. 엄격한 필터는 여전히 일부 스팸을 놓칠 수 있는 반면, 더 관대한 필터는 실수로 합법적인 메시지를 차단할 수 있습니다. 올바른 균형은 사용 사례와 각 유형의 오류 비용에 따라 달라집니다.
정밀도-재현율 곡선(PR 곡선)은 모델의 결정 임계값이 변경됨에 따라 정밀도와 재현율이 어떻게 변하는지 보여줍니다. 각 점은 둘 사이의 서로 다른 절충점을 나타냅니다. PR 곡선은 한 클래스가 훨씬 덜 빈번한 불균형 데이터 세트에 특히 유용합니다.
또한 다양한 결정 임계값에서 모델이 양성을 음성으로부터 얼마나 잘 분리하는지 보여주는 수신자 조작 특성(ROC) 곡선보다 더 의미 있는 통찰력을 제공합니다. 높은 정밀도와 높은 재현율을 모두 갖춘 모델은 일반적으로 이상적인 오른쪽 상단 모서리 근처에 머무르는 정밀도-재현율 곡선을 갖습니다.
F1 점수는 정밀도와 재현율 간의 균형을 포착하는 단일 값을 제공합니다. F1 점수는 정밀도와 재현율의 곱에 2를 곱한 값을 정밀도와 재현율의 합으로 나눈 값으로 계산됩니다. 거짓 양성과 거짓 음성이 모두 중요할 때 유용하며 불균형한 데이터 세트로 작업하거나 모델 성능에 대한 균형 잡힌 시각이 필요할 때 유용합니다.
정확도, 정밀도 및 재현율이 필수적이지만, 다른 메트릭은 모델 유형 및 데이터 세트 특성에 따라 추가적인 통찰력을 제공합니다.
다음은 성능의 다양한 측면을 평가하는 데 도움이 되는 일반적으로 사용되는 지표입니다.
이제 정확도, 정밀도, 재현율에 대해 더 명확하게 이해했으니, 이러한 지표가 컴퓨터 비전에서 어떻게 적용되는지 살펴보겠습니다.
Ultralytics YOLO11과 같은 컴퓨터 비전 모델은 객체 탐지와 같은 작업을 지원하며, 여기서 모델은 이미지에 있는 객체를 식별하고 경계 상자를 사용하여 해당 위치를 찾습니다. 각 예측에는 객체 레이블과 위치가 모두 포함되므로 레이블이 올바른지 여부만 확인하는 것보다 평가가 더 복잡합니다.
카메라를 사용하여 선반의 제품을 자동으로 추적하는 소매 애플리케이션을 고려해 보세요. 객체 감지 모델은 시리얼 상자, 탄산음료 캔 또는 물병과 같은 품목을 식별하고 해당 위치를 표시할 수 있습니다.
이 경우, 정확도는 감지된 항목 중 실제로 올바른 항목이 얼마나 되는지를 나타냅니다. 높은 정확도는 시스템이 그림자나 배경 객체를 제품으로 잘못 레이블링하는 것과 같은 오탐지를 피한다는 것을 의미합니다. 재현율은 모델이 선반에 있는 실제 제품을 얼마나 많이 감지했는지 보여줍니다. 높은 재현율은 누락되는 항목이 적다는 것을 의미하며, 이는 정확한 재고 수량에 매우 중요합니다.
정확도는 여전히 정확성에 대한 일반적인 척도를 제공할 수 있지만, 이러한 환경에서는 몇 개의 제품을 놓치거나 존재하지 않는 품목을 감지하는 것이 재고 관리에 큰 영향을 미칠 수 있습니다. 그렇기 때문에 개발자는 시스템이 신뢰할 수 있고 실제 사용에 실용적인지 확인하기 위해 정밀도, 재현율 및 정확도를 함께 고려합니다.
정확도, 정밀도 및 재현율은 각각 머신 러닝 모델 성능의 서로 다른 측면을 보여줍니다. 하나의 지표에만 의존하면 오해의 소지가 있을 수 있습니다.
오차 행렬, 정밀도-재현율 곡선 및 F1-점수와 같은 도구 및 메트릭은 ML 모델 개선에 대한 절충점을 밝히고 의사 결정을 안내하는 데 도움이 됩니다. 특정 AI 솔루션에 적합한 메트릭 조합을 선택하면 모델이 실제 애플리케이션에서 정확하고 안정적이며 효과적인지 확인할 수 있습니다.
점점 늘어나는 커뮤니티를 탐색해보세요! GitHub 저장소를 확인하여 AI에 대해 자세히 알아보세요. 컴퓨터 비전 프로젝트를 시작할 준비가 되셨나요? 라이선스 옵션을 살펴보세요. 솔루션 페이지를 방문하여 농업 분야의 AI와 로봇 공학 분야의 Vision AI를 발견하세요!