평가자 간 신뢰도: 정의, 예시, 계산
평가자 간 신뢰도, 코헨의 카파 계수, ICC, 평가자 교육 및 일치율을 이해해 보십시오. 이러한 통계적 측정이 연구 및 데이터 분석에서 관찰자 간의 일관성을 어떻게 보장하는지 학습합니다.

AI 모델을 구축할 때 데이터의 품질은 그 이면의 알고리즘만큼이나 중요합니다. 여러 사람이 동일한 데이터를 라벨링하거나 검토할 때 의견 불일치는 필연적으로 발생합니다. 이는 연구, 의료, 교육 등 여러 분야에서 공통적으로 나타나는 현상입니다.
Particularly, in computer vision, a branch of AI that involves training models like Ultralytics YOLO11 to interpret visual data like images or videos, labeled examples play a crucial role. If those labels are inconsistent, computer vision models can struggle to learn the correct patterns.
평가자 간 신뢰도(IRR)는 서로 다른 개인, 즉 평가자가 특정 작업에 대해 얼마나 일관되게 동의하는지를 측정합니다. 이는 일관성을 모니터링하고 학습, 가이드라인 또는 해석상의 격차를 파악하는 데 도움을 줍니다. 이는 특정 목적을 위해 특정 데이터를 사용하여 AI 모델을 구축하는 맞춤형 모델 학습에서 특히 중요합니다.
이 글에서는 평가자 간 신뢰도가 무엇인지, 이를 측정하는 방법, 그리고 실제 프로젝트 전반에서 이를 개선하는 방법에 대해 살펴보겠습니다. 시작해 보겠습니다!
Link to this section평가자 간 신뢰도란 무엇인가요?#
평가자 간 신뢰도는 동일한 콘텐츠를 라벨링, 평가 또는 검토할 때 두 명 이상의 사람(평가자라고도 함)이 얼마나 자주 의견을 일치시키는지 측정합니다. 이는 서로 다른 평가자가 주어진 기준을 얼마나 일관되게 사용하는지 확인하는 데 사용됩니다. 평가자 간의 높은 일치도는 작업이 잘 정의되어 있고 명확하게 이해되고 있음을 의미합니다.
이 개념은 다양한 분야에서 사용됩니다. 분야에 따라 평가자 간 일치도(inter-rater agreement), 관찰자 간 신뢰도(interobserver reliability) 또는 코더 간 신뢰도(inter-coder reliability)와 같은 다양한 이름으로 불립니다. 하지만 근본적인 원칙은 동일합니다.
비전 AI에서 평가자 간 신뢰도는 데이터 라벨링 프로세스의 핵심 요소입니다. 컴퓨터 비전 모델을 학습시키려면 대규모 이미지나 비디오 프레임 데이터셋에 라벨을 지정해야 하는 경우가 많으므로, 여러 AI 개발자가 동일한 데이터를 함께 작업합니다.
정확한 결과를 얻으려면 동일한 라벨링 가이드라인을 따라야 합니다. 예를 들어 동물을 라벨링할 때, 무엇을 개로 간주할지, 그 주위에 BBox를 어떻게 그릴지, 흐릿한 객체에 라벨을 지정할지 혹은 무시할지에 대해 모두가 명확하게 합의해야 합니다.

그림 1. 평가자 간 신뢰도 이해하기 (이미지 제공: 작성자)
Link to this section평가자 간 신뢰도 vs. 평가자 내 신뢰도 및 검사-재검사 신뢰도#
사람이 데이터 라벨링이나 채점에 관여할 때 고려해야 할 세 가지 주요 신뢰도 유형이 있습니다. 각각은 결과의 일관성을 측정하는 데 있어 서로 다른 목적을 수행합니다. 각 유형을 자세히 살펴보겠습니다.
-
평가자 간 신뢰도(Inter-rater reliability): 평가자 간 신뢰도는 동일한 작업을 수행하는 서로 다른 사람들 사이에 얼마나 많은 일치가 있는지 살펴봅니다. 이는 이미지 라벨링, 감정 분석 또는 의료 검토와 같은 프로젝트에 여러 명의 주석 작성자가 참여할 때 특히 유용합니다.
-
평가자 내 신뢰도(Intra-rater reliability): 이는 한 사람에게 초점을 맞춥니다. 평가자 내 신뢰도는 평가자가 서로 다른 시점에 동일한 작업을 반복할 때 일관성을 유지하는지 확인합니다. 라벨이 너무 많이 변경된다면 이는 불분명한 가이드라인이나 작업의 모호함 때문일 수 있습니다.
-
검사-재검사 신뢰도(Test-retest reliability): 검사-재검사 신뢰도는 주석 작성자가 아닌 사용되는 도구나 방법에 초점을 맞춥니다. 동일한 조건에서 검사를 반복할 때 동일한 결과가 나오는지 측정합니다. 결과값이 일관되게 유지되면 해당 방법은 신뢰할 수 있는 것으로 간주됩니다.
이러한 측정 지표들은 사람과 프로세스 모두가 안정적이고 신뢰할 수 있는 결과를 생산하고 있음을 확인하는 데 도움을 줍니다.

그림 2. 평가자 간, 평가자 내, 그리고 검사-재검사 신뢰도 개요 (이미지 제공: 작성자)
Link to this section평가자 간 신뢰도가 중요한 이유는 무엇인가요?#
대규모 비전 AI 프로젝트에서 라벨링된 데이터의 품질은 모델의 성능에 직접적인 영향을 미칩니다. 주석 작성자가 가이드라인을 적용하는 방식에 작은 차이만 있어도 학습 중 모델을 혼란스럽게 하는 불일치가 발생할 수 있습니다. 시간이 지남에 따라 이는 부정확한 예측, 리소스 낭비, 그리고 비용이 많이 드는 재라벨링 작업으로 이어질 수 있습니다.
평가자 간 신뢰도를 측정하면 이러한 문제를 조기에 발견할 수 있습니다. 높은 일치도는 주석 작성자들이 정렬되어 있으며 더 깨끗하고 신뢰할 수 있는 데이터셋을 생산하고 있음을 의미합니다. 낮은 일치도는 프로젝트가 진행되기 전에 지침, 예시 또는 교육을 개선해야 함을 나타냅니다. 라벨러들이 동기화되어 작업하도록 함으로써 팀은 더 효과적으로 학습하고 실제 애플리케이션에서 더 나은 결과를 제공하는 AI 모델을 구축할 수 있습니다.
Link to this section평가자 간 신뢰도를 위한 실질적인 고려 사항#
여러 평가자와 작업하며 높은 평가자 간 신뢰도를 유지하기 위해 고려해야 할 몇 가지 주요 실질적인 고려 사항은 다음과 같습니다.
- 모호하거나 주관적인 작업: 흐릿한 객체가 보행자인지 판단하거나 이미지의 품질을 판단하는 등 해석이 필요한 라벨링 작업의 경우, 여러 평가자가 참여하면 결정이 일관되고 개인적 편향에 지나치게 좌우되지 않도록 보장하는 데 도움이 됩니다.
- 단순하고 객관적인 작업: 이미지의 차량 수를 계산하거나 객체가 존재하는지 확인하는 것과 같은 간단한 작업은 프로세스가 명확하게 정의되면 일반적으로 일치도가 높기 때문에 숙련된 평가자 한 명만 있으면 충분한 경우가 많습니다.
- 명확한 라벨링 가이드라인: 상세하고 따라하기 쉬운 지침은 라벨 적용 방식의 불확실성을 줄여 평가자 간의 일치도를 높입니다. 가이드라인은 일관되지 않은 해석을 방지하기 위해 예외적인 사례(edge cases)를 명시적으로 다루어야 합니다.
- 정기적인 교육 및 보정: 숙련된 평가자라도 시간이 지나면서 판단력이 흔들릴 수 있습니다. 정기적인 교육 세션과 보정 점검은 일관성을 유지하고 실험자의 편향을 최소화하는 데 도움이 됩니다.
Link to this section평가자 간 신뢰도 측정법#
평가자 간 신뢰도를 측정하는 방법은 여러 가지가 있으며, 최선의 선택은 데이터와 작업 유형에 따라 달라집니다. 어떤 방법은 간단한 예/아니오 질문을 다루는 단일 평가자에게 효과적이고, 다른 방법은 여러 평가자가 포함된 상황을 위해 설계되었습니다.
일반적인 접근 방식으로는 퍼센트 일치도(percent agreement), 코헨의 카파(Cohen’s Kappa), 플라이스의 카파(Fleiss’ Kappa), 급내 상관계수(intraclass correlation coefficient)가 있습니다. 각 방법은 평가자 간 일치 수준을 측정하고 일부 일치가 우연히 발생했을 가능성을 고려합니다.
Link to this section코헨의 카파와 플라이스의 카파#
코헨의 카파는 두 평가자 간의 평가자 간 신뢰도를 측정하는 데 널리 사용되는 방법입니다. 이 방법은 일부 일치가 우연히 발생했을 가능성을 조정하면서 작업에 대해 얼마나 자주 동의하는지 계산합니다. 점수는 -1에서 1까지이며, 1은 완벽한 일치를 나타내고 0은 우연한 추측보다 나을 것이 없음을 의미합니다.
마찬가지로 플라이스의 카파는 두 명 이상의 평가자가 참여할 때 사용됩니다. 이는 그룹이 얼마나 일관성이 있는지 보여주는 전체 점수를 제공합니다. 두 방법 모두 이미지 라벨링이나 감정 태깅과 같이 범주가 설정된 작업에 사용됩니다. 계산이 간편하며 대부분의 주석 도구에서 지원합니다.
Link to this section퍼센트 일치도와 급내 상관계수(ICC)#
평가자 간 신뢰도를 측정하는 또 다른 방법은 퍼센트 일치도로, 평가자가 동일한 결정을 내리는 비율을 계산합니다. 사용하기는 간단하지만 우연히 발생할 수 있는 일치 가능성을 고려하지 않습니다.
한편, 급내 상관계수는 연속적 또는 척도 기반 데이터에 사용되는 더 고급 방법입니다. 이는 여러 평가자 전반에서 평가가 얼마나 일관적인지 측정하며, 고정된 범주를 넘어서는 점수, 측정값 또는 기타 데이터 유형과 관련된 연구에 자주 적용됩니다.
Link to this section평가자 간 신뢰도 예시 및 애플리케이션#
이제 평가자 간 신뢰도를 측정하는 방법에 대해 더 잘 이해했으니, 이러한 방법이 실제 애플리케이션에서 어떻게 사용될 수 있는지 살펴보겠습니다.
Link to this section의료 영상 주석에서의 평가자 간 신뢰도#
의료 영상에 관해서는 해석의 사소한 차이만으로도 결과에 큰 변화가 생길 수 있습니다. 예를 들어, 방사선 전문의는 미묘하거나 모호하거나 정의하기 어려운 패턴을 식별하도록 요청받는 경우가 많습니다. 이러한 패턴이 AI 시스템의 학습 데이터가 될 때 위험성은 더 커집니다. 전문가들이 동일한 스캔을 다르게 라벨링하면 모델이 잘못된 패턴을 학습하거나 학습에 실패할 수 있습니다.
평가자 간 신뢰도는 이러한 데이터를 다루는 팀이 전문가의 판단이 얼마나 일관적인지 평가하도록 돕습니다. 예를 들어, 최근 망막 OCT 스캔에 초점을 맞춘 연구에서 두 명의 평가자가 500개의 이미지를 라벨링했습니다.
드루젠(망막 아래의 노란색 침전물)과 같은 명확한 특징에 대한 일치도는 카파 점수 0.87로 높았습니다. 하지만 과반사 초점(망막 스캔에서 보이는 작고 밝은 점)과 같이 정의하기 어려운 요소의 경우 점수가 0.33으로 떨어졌습니다. 이는 더 명확하고 잘 정의된 특징일수록 일관된 전문가 판단을 도출하는 경향이 있는 반면, 모호한 특징은 해석의 여지를 더 많이 남긴다는 것을 보여줍니다.

그림 3. 망막 질환과 관련된 다양한 특징에 대한 라벨 예시 (출처)
Link to this section자율 주행 데이터셋과 평가자 간 신뢰도#
자율 주행 시스템을 위한 AI 모델 학습은 다양한 도로 조건 전반에 걸쳐 정확하고 일관된 라벨에 의존합니다. 이러한 프로젝트에서 작업하는 주석 작성자는 일반적으로 열악한 조명이나 혼잡한 장면에서 보행자, 차량, 교통 표지판 및 차선 표시를 식별하도록 요청받습니다.
이러한 결정은 모델이 가혹한 실제 환경에서 대응하는 방법을 학습하는 방식을 결정합니다. 평가자 간 신뢰도는 팀이 주석 작성자 전반에 걸쳐 이러한 라벨이 동일한 방식으로 적용되고 있는지 확인할 수 있게 해줍니다.

그림 4. 주석 불일치 살펴보기 (출처)
Link to this section평가자 간 신뢰도를 넘어: 기타 품질 보증 조치#
평가자 간 신뢰도를 측정하는 것은 AI 솔루션 구축의 중요한 단계이지만, 이는 더 광범위한 품질 보증 프로세스의 일부일 뿐입니다. 팀과 프로젝트 전반에 걸쳐 데이터 품질을 개선하는 데 도움이 될 수 있는 다른 관행은 다음과 같습니다:
- 명확한 주석 가이드라인: 지침은 모든 사람이 동일한 표준에 따라 작업할 수 있도록 라벨을 적용하는 방법을 정확하게 설명해야 합니다.
- 교육 및 보정: 정기적인 세션은 주석 작성자가 정렬된 상태를 유지하도록 돕고 질문을 하거나 예외적인 사례에 적응할 수 있는 공간을 제공합니다.
- 지속적인 품질 점검: 현장 점검과 골드 표준 예시는 실수를 조기에 포착하고 프로젝트가 확장됨에 따라 높은 품질을 유지할 수 있게 합니다.
- 불일치 해결: 주석 작성자 간에 의견이 충돌할 경우 해당 사례를 검토하고 최종 결정을 내리는 명확한 프로세스가 있어야 합니다.
- 다양한 주석 작성자 풀: 다양한 배경을 가진 사람들을 참여시키면 편향을 줄이고 데이터셋이 실제 환경의 변동성을 얼마나 잘 나타내는지 개선할 수 있습니다.
Link to this section핵심 요약#
평가자 간 신뢰도는 사람들이 라벨을 적용하거나 결정을 내리는 일관성을 측정합니다. 코헨의 카파, 플라이스의 카파, ICC와 같은 방법은 해당 일치도를 수치화하는 데 도움을 줍니다. 명확한 가이드라인, 교육 및 편향 제어를 통해 신뢰할 수 있는 주석은 더 강력한 데이터와 더 나은 모델 결과로 이어집니다.
저희 커뮤니티에 가입하고 GitHub 저장소를 탐색하여 AI에 대해 더 자세히 알아보세요. 자신만의 비전 AI 프로젝트를 시작하고 싶다면 라이선스 옵션을 확인하세요. 또한 솔루션 페이지를 방문하여 의료 분야 AI와 리테일 분야 비전 AI가 어떤 영향을 미치고 있는지 확인할 수 있습니다.






