평가자 간 신뢰도란 무엇인가: 정의, Cohen's Kappa 등

AI 모델을 구축할 때 데이터의 품질은 그 이면에 있는 알고리즘만큼 중요합니다. 여러 사람이 동일한 데이터에 레이블을 지정하거나 검토할 때 의견 불일치가 발생하기 마련입니다. 이는 연구, 의료, 교육을 포함한 많은 분야에서 사실입니다.

특히 컴퓨터 비전에서는 다음과 같은 모델을 학습하는 AI의 한 분야인 Ultralytics YOLO11 와 같이 이미지나 동영상과 같은 시각적 데이터를 해석하기 위해 모델을 훈련하는 분야에서는 레이블이 지정된 예제가 중요한 역할을 합니다. 이러한 레이블이 일관되지 않으면 컴퓨터 비전 모델이 올바른 패턴을 학습하는 데 어려움을 겪을 수 있습니다.

평가자 간 신뢰도(IRR)는 서로 다른 개인 또는 레이블러가 얼마나 일관되게 작업에 동의하는지 측정합니다. 이는 일관성을 모니터링하고 교육, 지침 또는 해석의 격차를 식별하는 데 도움이 됩니다. 이는 특정 목적을 위해 특정 데이터를 사용하여 AI 모델을 구축하는 사용자 정의 모델 학습에서 특히 중요합니다.

이번 글에서는 평가자 간 신뢰도가 무엇인지, 측정 방법, 그리고 실제 프로젝트에서 개선하는 방법에 대해 살펴보겠습니다. 그럼 시작해 볼까요!

평가자 간 신뢰도란 무엇인가?

평가자 간 신뢰도는 두 명 이상의 사람(평가자라고도 함)이 동일한 콘텐츠에 레이블을 지정, 평가 또는 검토할 때 얼마나 자주 동의하는지 측정합니다. 이는 서로 다른 평가자가 주어진 기준을 얼마나 일관되게 사용하는지 확인하는 데 사용됩니다. 평가자 간의 높은 합의는 작업이 잘 정의되고 명확하게 이해되었음을 의미합니다.

이 개념은 다양한 분야에서 사용됩니다. 분야에 따라 평가자 간 일치도, 관찰자 간 신뢰도 또는 코더 간 신뢰도와 같이 다른 이름으로 알려져 있지만, 기본 원칙은 동일합니다.

Vision AI에서 평가자 간 신뢰도는 데이터 레이블링 프로세스의 핵심 부분입니다. 컴퓨터 비전 모델을 훈련하려면 대규모 이미지 또는 비디오 프레임 데이터 세트에 레이블을 지정해야 하는 경우가 많으므로 여러 AI 개발자가 동일한 데이터에 대해 함께 작업합니다.

정확한 결과를 얻으려면 동일한 라벨링 지침을 따라야 합니다. 예를 들어 동물을 라벨링할 때 모든 사람이 무엇을 개로 간주하는지, 경계 상자를 그리는 방법, 흐릿한 객체를 라벨링할지 무시할지에 대한 명확한 합의가 필요합니다.

‍

평가자 간 신뢰도 vs. 평가자 내 신뢰도 및 테스트-재테스트 신뢰도

데이터 레이블링 또는 점수 매기기에 사람이 관여하는 경우 고려해야 할 세 가지 주요 유형의 신뢰성이 있습니다. 각각은 결과의 일관성을 측정하는 데 다른 목적을 제공합니다. 각 유형에 대한 자세한 내용은 다음과 같습니다.

평가자 간 신뢰도: 평가자 간 신뢰도는 동일한 작업을 수행하는 여러 사람들 간에 얼마나 일치하는지를 나타냅니다. 이는 특히 이미지 라벨링, 감성 분석 또는 의료 검토와 같은 프로젝트에 여러 명의 주석자가 참여할 때 유용합니다.

평가자 내 신뢰도: 초점을 한 사람에게 맞춥니다. 평가자 내 신뢰도는 평가자가 서로 다른 시점에서 동일한 작업을 반복할 때 일관성을 유지하는지 확인합니다. 레이블이 너무 많이 변경되면 지침이 명확하지 않거나 작업 명확성이 부족한 결과일 수 있습니다.

재검사 신뢰도: 재검사 신뢰도는 평가자가 아닌 사용되는 도구나 방법에 중점을 둡니다. 유사한 조건에서 테스트를 반복했을 때 동일한 결과가 나타나는지 측정합니다. 출력이 일관성을 유지하면 해당 방법은 신뢰할 수 있는 것으로 간주됩니다.

이러한 측정 방법을 함께 사용하면 사람과 프로세스 모두 꾸준하고 신뢰할 수 있는 결과를 생성하고 있는지 확인하는 데 도움이 됩니다.

Fig 2. 평가자 간, 평가자 내, 테스트-재테스트 신뢰도 개요 (이미지 출처: 작성자)

‍

평가자 간 신뢰도가 중요한 이유는 무엇인가?

대규모 Vision AI 프로젝트에서 레이블이 지정된 데이터의 품질은 모델 성능에 직접적인 영향을 미칩니다. 주석 작업자가 지침을 적용하는 방식의 작은 차이조차도 모델 훈련 중에 혼란을 야기하는 불일치를 초래할 수 있습니다. 시간이 지남에 따라 이는 부정확한 예측, 리소스 낭비 및 비용이 많이 드는 재 레이블링의 필요성으로 이어질 수 있습니다.

평가자 간 신뢰도를 측정하면 이러한 문제를 조기에 발견하는 데 도움이 됩니다. 합의가 높다는 것은 주석자가 정렬되어 더 깨끗하고 신뢰할 수 있는 데이터 세트를 생성한다는 의미입니다. 합의가 낮다는 것은 프로젝트가 진행되기 전에 지침, 예제 또는 교육을 개선해야 할 수 있음을 나타냅니다. 레이블 지정자가 동기화되어 작업하도록 함으로써 팀은 보다 효과적으로 학습하고 실제 애플리케이션에서 더 나은 결과를 제공하는 AI 모델을 구축할 수 있습니다.

평가자 간 신뢰도에 대한 실질적인 고려 사항

다음은 여러 평가자와 협력하고 높은 평가자 간 신뢰도를 유지하기 위해 염두에 두어야 할 주요 실질적인 고려 사항입니다.

모호하거나 주관적인 작업: 흐릿한 객체가 보행자인지 판단하거나 이미지 품질을 판단하는 것과 같이 레이블링에 해석이 필요한 경우, 여러 평가자가 결정을 일관되게 유지하고 개인 편향에 지나치게 영향을 받지 않도록 돕습니다.
단순하고 객관적인 작업: 이미지에서 자동차 수를 세거나 객체의 존재 여부를 확인하는 것과 같이 간단한 작업은 프로세스가 명확하게 정의되면 일반적으로 합의가 높으므로 잘 훈련된 평가자 한 명만 필요합니다.
명확한 레이블링 지침: 자세하고 따라하기 쉬운 지침은 레이블 적용 방법에 대한 불확실성을 줄여 평가자 간의 일치도를 향상시킵니다. 지침은 일관성 없는 해석을 방지하기 위해 엣지 케이스를 명시적으로 다루어야 합니다.
정기적인 훈련 및 교정: 숙련된 평가자조차도 시간이 지남에 따라 판단이 흐려질 수 있습니다. 정기적인 훈련 세션과 교정 점검은 일관성을 유지하고 실험자 편향을 최소화하는 데 도움이 됩니다.

평가자 간 신뢰도 측정

평가자 간 신뢰도를 측정하는 방법에는 여러 가지가 있으며, 가장 적합한 방법은 데이터 및 작업 유형에 따라 다릅니다. 일부 방법은 단순한 예-아니오 질문을 처리하는 단일 평가자에게 적합하고, 다른 방법은 여러 평가자가 관련된 상황을 위해 설계되었습니다.

일반적인 접근 방식으로는 백분율 동의, Cohen’s Kappa, Fleiss’ Kappa 및 급내 상관 계수가 있습니다. 각 방법은 평가자 간의 동의 수준을 측정하고 일부 동의가 우연히 발생할 수 있음을 고려합니다.

Cohen’s Kappa 및 Fleiss’ Kappa

Cohen’s Kappa는 두 평가자 간의 평가자 간 신뢰도를 측정하는 데 널리 사용되는 방법입니다. 일부 동의가 우연히 발생할 가능성을 조정한 상태에서 작업에 대해 얼마나 자주 동의하는지 계산합니다. 점수는 -1에서 1까지이며, 1은 완벽한 동의를 나타내고 0은 동의가 무작위 추측보다 나을 것이 없음을 의미합니다.

마찬가지로, Fleiss’ Kappa는 두 명 이상의 평가자가 참여할 때 사용됩니다. 그룹의 일관성을 보여주는 전체 점수를 제공합니다. 두 방법 모두 이미지 레이블링 또는 감정 태깅과 같이 설정된 범주가 있는 작업에 사용됩니다. 계산하기 쉽고 대부분의 어노테이션 도구에서 지원됩니다.

일치율(Percent agreement) 및 급내 상관 계수(ICC)

평가자 간 신뢰도를 측정하는 또 다른 방법은 평가자들이 동일한 결정을 내리는 횟수의 백분율을 계산하는 일치율입니다. 사용하기는 간단하지만 우연히 발생할 수 있는 합의는 고려하지 않습니다.

한편, 급내 상관 계수는 연속형 또는 척도 기반 데이터에 사용되는 더 발전된 방법입니다. 이는 여러 평가자 간의 평가가 얼마나 일관성이 있는지 측정하며 고정된 범주를 넘어서는 점수, 측정 또는 기타 데이터 유형과 관련된 연구에 자주 적용됩니다.

평가자 간 신뢰도 예시 및 응용

이제 평가자 간 신뢰도를 측정하는 방법을 더 잘 이해했으므로 이러한 방법이 실제 응용 분야에서 어떻게 사용될 수 있는지 살펴보겠습니다.

의료 영상 어노테이션에서의 평가자 간 신뢰도

의료 영상의 경우 해석의 작은 차이조차도 결과에 상당한 변화를 가져올 수 있습니다. 예를 들어, 방사선 전문의는 종종 미묘하거나 모호하거나 정의하기 어려운 패턴을 식별해야 합니다. 이러한 패턴이 AI 시스템의 훈련 데이터가 되면 위험 부담이 더 커집니다. 전문가가 동일한 스캔에 대해 다르게 레이블을 지정하면 모델이 잘못된 패턴을 학습하거나 전혀 학습하지 못할 수 있습니다.

평가자 간 신뢰도는 이러한 데이터를 다루는 팀이 전문가 판단이 실제로 얼마나 일관성이 있는지 평가하는 데 도움이 됩니다. 예를 들어, 망막 OCT 스캔에 초점을 맞춘 최근 연구에서 두 명의 평가자가 500개의 이미지에 레이블을 지정했습니다.

드루젠(망막 아래 노란 침전물)과 같이 명확한 특징에 대해서는 합의도가 높아 카파 점수가 0.87이었습니다. 그러나 과반사 초점(망막 스캔에서 보이는 작고 밝은 점)과 같이 정의하기 어려운 요소의 경우 점수가 0.33으로 떨어졌습니다. 이는 더 명확하고 잘 정의된 특징이 더 일관된 전문가 판단을 생성하는 경향이 있는 반면, 모호한 특징은 해석의 여지를 더 많이 남긴다는 것을 보여줍니다.

Fig 3. 망막 질환과 관련된 다양한 특징에 대한 레이블 예시 (출처)

‍

자율 주행 차량 데이터 세트 및 평가자 간 신뢰도

자율 주행 시스템을 위한 AI 모델 학습은 광범위한 도로 조건에서 정확하고 일관된 레이블에 달려 있습니다. 이러한 프로젝트에 참여하는 주석자는 일반적으로 조명이 좋지 않거나 혼잡한 장면에서 보행자, 차량, 교통 표지판 및 차선 표시를 식별하도록 요청받습니다.

이러한 결정은 모델이 가혹한 실제 환경에서 대응하는 방법을 형성합니다. 평가자 간 신뢰도를 통해 팀은 해당 레이블이 주석자 간에 동일한 방식으로 적용되고 있는지 확인할 수 있습니다.

‍

평가자 간 신뢰도 그 이상: 기타 품질 보증 조치

평가자 간 신뢰도를 측정하는 것은 AI 솔루션 구축에 있어 중요한 단계이지만, 더 광범위한 품질 보증 프로세스의 일부입니다. 다음은 팀과 프로젝트 전반에서 데이터 품질을 개선하는 데 도움이 되는 몇 가지 다른 방법입니다.

명확한 어노테이션 지침: 모든 사람이 동일한 표준으로 작업할 수 있도록 레이블을 적용하는 방법을 정확하게 설명해야 합니다.
학습 및 보정: 정기적인 세션을 통해 어노테이터는 계속 협력하고 질문하고 엣지 케이스에 적응할 수 있는 공간을 확보할 수 있습니다.
지속적인 품질 검사: 스팟 검사 및 Gold Standard 예제를 통해 실수를 조기에 발견하고 프로젝트 규모가 커짐에 따라 높은 품질을 유지할 수 있습니다.
이견 해결: 주석자가 동의하지 않는 경우 해당 사례를 검토하고 최종 결정을 내리는 명확한 프로세스가 있어야 합니다.
다양한 주석자 풀: 다양한 배경을 가진 사람들을 참여시키면 편향을 줄이고 데이터 세트가 실제 변화를 얼마나 잘 나타내는지 개선할 수 있습니다.

주요 내용

평가자 간 신뢰도는 사람들이 얼마나 일관되게 레이블을 적용하거나 결정을 내리는지 측정합니다. Cohen’s Kappa, Fleiss’ Kappa 및 ICC와 같은 방법은 이러한 합의를 정량화하는 데 도움이 됩니다. 명확한 지침, 교육 및 편향 제어를 통해 신뢰할 수 있는 어노테이션은 더 강력한 데이터와 더 나은 모델 결과를 가져옵니다.

커뮤니티에 참여하고 GitHub 저장소를 탐색하여 AI에 대해 자세히 알아보세요. 자체 Vision AI 프로젝트를 시작하려는 경우 라이선스 옵션을 확인하세요. 또한 솔루션 페이지를 방문하여 헬스케어 분야의 AI와 리테일 분야의 Vision AI가 어떻게 영향을 미치는지 확인할 수 있습니다.

평가자 간 신뢰도: 정의, 예시, 계산