평가자 간 신뢰도, Cohen's Kappa, ICC, 평가자 교육 및 백분율 합의를 이해합니다. 이러한 통계적 측정 방법이 연구 및 데이터 분석에서 관찰자 간의 일관성과 합의를 어떻게 보장하는지 알아보세요.

평가자 간 신뢰도, Cohen's Kappa, ICC, 평가자 교육 및 백분율 합의를 이해합니다. 이러한 통계적 측정 방법이 연구 및 데이터 분석에서 관찰자 간의 일관성과 합의를 어떻게 보장하는지 알아보세요.
AI 모델을 구축할 때 데이터의 품질은 그 이면에 있는 알고리즘만큼 중요합니다. 여러 사람이 동일한 데이터에 레이블을 지정하거나 검토할 때 의견 불일치가 발생하기 마련입니다. 이는 연구, 의료, 교육을 포함한 많은 분야에서 사실입니다.
특히 컴퓨터 비전에서 이미지나 비디오와 같은 시각적 데이터를 해석하기 위해 Ultralytics YOLO11과 같은 모델을 훈련하는 AI의 한 분야인 레이블이 지정된 예제는 중요한 역할을 합니다. 이러한 레이블이 일관성이 없으면 컴퓨터 비전 모델은 올바른 패턴을 학습하는 데 어려움을 겪을 수 있습니다.
평가자 간 신뢰도(IRR)는 서로 다른 개인 또는 레이블러가 얼마나 일관되게 작업에 동의하는지 측정합니다. 이는 일관성을 모니터링하고 교육, 지침 또는 해석의 격차를 식별하는 데 도움이 됩니다. 이는 특정 목적을 위해 특정 데이터를 사용하여 AI 모델을 구축하는 사용자 정의 모델 학습에서 특히 중요합니다.
이번 글에서는 평가자 간 신뢰도가 무엇인지, 측정 방법, 그리고 실제 프로젝트에서 개선하는 방법에 대해 살펴보겠습니다. 그럼 시작해 볼까요!
평가자 간 신뢰도는 두 명 이상의 사람(평가자라고도 함)이 동일한 콘텐츠에 레이블을 지정, 평가 또는 검토할 때 얼마나 자주 동의하는지 측정합니다. 이는 서로 다른 평가자가 주어진 기준을 얼마나 일관되게 사용하는지 확인하는 데 사용됩니다. 평가자 간의 높은 합의는 작업이 잘 정의되고 명확하게 이해되었음을 의미합니다.
이 개념은 다양한 분야에서 사용됩니다. 분야에 따라 평가자 간 일치도, 관찰자 간 신뢰도 또는 코더 간 신뢰도와 같이 다른 이름으로 알려져 있지만, 기본 원칙은 동일합니다.
Vision AI에서 평가자 간 신뢰도는 데이터 레이블링 프로세스의 핵심 부분입니다. 컴퓨터 비전 모델을 훈련하려면 대규모 이미지 또는 비디오 프레임 데이터 세트에 레이블을 지정해야 하는 경우가 많으므로 여러 AI 개발자가 동일한 데이터에 대해 함께 작업합니다.
정확한 결과를 얻으려면 동일한 라벨링 지침을 따라야 합니다. 예를 들어 동물을 라벨링할 때 모든 사람이 무엇을 개로 간주하는지, 경계 상자를 그리는 방법, 흐릿한 객체를 라벨링할지 무시할지에 대한 명확한 합의가 필요합니다.
데이터 레이블링 또는 점수 매기기에 사람이 관여하는 경우 고려해야 할 세 가지 주요 유형의 신뢰성이 있습니다. 각각은 결과의 일관성을 측정하는 데 다른 목적을 제공합니다. 각 유형에 대한 자세한 내용은 다음과 같습니다.
이러한 측정 방법을 함께 사용하면 사람과 프로세스 모두 꾸준하고 신뢰할 수 있는 결과를 생성하고 있는지 확인하는 데 도움이 됩니다.
대규모 Vision AI 프로젝트에서 레이블이 지정된 데이터의 품질은 모델 성능에 직접적인 영향을 미칩니다. 주석 작업자가 지침을 적용하는 방식의 작은 차이조차도 모델 훈련 중에 혼란을 야기하는 불일치를 초래할 수 있습니다. 시간이 지남에 따라 이는 부정확한 예측, 리소스 낭비 및 비용이 많이 드는 재 레이블링의 필요성으로 이어질 수 있습니다.
평가자 간 신뢰도를 측정하면 이러한 문제를 조기에 발견하는 데 도움이 됩니다. 합의가 높다는 것은 주석자가 정렬되어 더 깨끗하고 신뢰할 수 있는 데이터 세트를 생성한다는 의미입니다. 합의가 낮다는 것은 프로젝트가 진행되기 전에 지침, 예제 또는 교육을 개선해야 할 수 있음을 나타냅니다. 레이블 지정자가 동기화되어 작업하도록 함으로써 팀은 보다 효과적으로 학습하고 실제 애플리케이션에서 더 나은 결과를 제공하는 AI 모델을 구축할 수 있습니다.
다음은 여러 평가자와 협력하고 높은 평가자 간 신뢰도를 유지하기 위해 염두에 두어야 할 주요 실질적인 고려 사항입니다.
평가자 간 신뢰도를 측정하는 방법에는 여러 가지가 있으며, 가장 적합한 방법은 데이터 및 작업 유형에 따라 다릅니다. 일부 방법은 단순한 예-아니오 질문을 처리하는 단일 평가자에게 적합하고, 다른 방법은 여러 평가자가 관련된 상황을 위해 설계되었습니다.
일반적인 접근 방식으로는 백분율 동의, Cohen’s Kappa, Fleiss’ Kappa 및 급내 상관 계수가 있습니다. 각 방법은 평가자 간의 동의 수준을 측정하고 일부 동의가 우연히 발생할 수 있음을 고려합니다.
Cohen’s Kappa는 두 평가자 간의 평가자 간 신뢰도를 측정하는 데 널리 사용되는 방법입니다. 일부 동의가 우연히 발생할 가능성을 조정한 상태에서 작업에 대해 얼마나 자주 동의하는지 계산합니다. 점수는 -1에서 1까지이며, 1은 완벽한 동의를 나타내고 0은 동의가 무작위 추측보다 나을 것이 없음을 의미합니다.
마찬가지로, Fleiss’ Kappa는 두 명 이상의 평가자가 참여할 때 사용됩니다. 그룹의 일관성을 보여주는 전체 점수를 제공합니다. 두 방법 모두 이미지 레이블링 또는 감정 태깅과 같이 설정된 범주가 있는 작업에 사용됩니다. 계산하기 쉽고 대부분의 어노테이션 도구에서 지원됩니다.
평가자 간 신뢰도를 측정하는 또 다른 방법은 평가자들이 동일한 결정을 내리는 횟수의 백분율을 계산하는 일치율입니다. 사용하기는 간단하지만 우연히 발생할 수 있는 합의는 고려하지 않습니다.
한편, 급내 상관 계수는 연속형 또는 척도 기반 데이터에 사용되는 더 발전된 방법입니다. 이는 여러 평가자 간의 평가가 얼마나 일관성이 있는지 측정하며 고정된 범주를 넘어서는 점수, 측정 또는 기타 데이터 유형과 관련된 연구에 자주 적용됩니다.
이제 평가자 간 신뢰도를 측정하는 방법을 더 잘 이해했으므로 이러한 방법이 실제 응용 분야에서 어떻게 사용될 수 있는지 살펴보겠습니다.
의료 영상의 경우 해석의 작은 차이조차도 결과에 상당한 변화를 가져올 수 있습니다. 예를 들어, 방사선 전문의는 종종 미묘하거나 모호하거나 정의하기 어려운 패턴을 식별해야 합니다. 이러한 패턴이 AI 시스템의 훈련 데이터가 되면 위험 부담이 더 커집니다. 전문가가 동일한 스캔에 대해 다르게 레이블을 지정하면 모델이 잘못된 패턴을 학습하거나 전혀 학습하지 못할 수 있습니다.
평가자 간 신뢰도는 이러한 데이터를 다루는 팀이 전문가 판단이 실제로 얼마나 일관성이 있는지 평가하는 데 도움이 됩니다. 예를 들어, 망막 OCT 스캔에 초점을 맞춘 최근 연구에서 두 명의 평가자가 500개의 이미지에 레이블을 지정했습니다.
드루젠(망막 아래 노란 침전물)과 같이 명확한 특징에 대해서는 합의도가 높아 카파 점수가 0.87이었습니다. 그러나 과반사 초점(망막 스캔에서 보이는 작고 밝은 점)과 같이 정의하기 어려운 요소의 경우 점수가 0.33으로 떨어졌습니다. 이는 더 명확하고 잘 정의된 특징이 더 일관된 전문가 판단을 생성하는 경향이 있는 반면, 모호한 특징은 해석의 여지를 더 많이 남긴다는 것을 보여줍니다.
자율 주행 시스템을 위한 AI 모델 학습은 광범위한 도로 조건에서 정확하고 일관된 레이블에 달려 있습니다. 이러한 프로젝트에 참여하는 주석자는 일반적으로 조명이 좋지 않거나 혼잡한 장면에서 보행자, 차량, 교통 표지판 및 차선 표시를 식별하도록 요청받습니다.
이러한 결정은 모델이 가혹한 실제 환경에서 대응하는 방법을 형성합니다. 평가자 간 신뢰도를 통해 팀은 해당 레이블이 주석자 간에 동일한 방식으로 적용되고 있는지 확인할 수 있습니다.
평가자 간 신뢰도를 측정하는 것은 AI 솔루션 구축에 있어 중요한 단계이지만, 더 광범위한 품질 보증 프로세스의 일부입니다. 다음은 팀과 프로젝트 전반에서 데이터 품질을 개선하는 데 도움이 되는 몇 가지 다른 방법입니다.
평가자 간 신뢰도는 사람들이 얼마나 일관되게 레이블을 적용하거나 결정을 내리는지 측정합니다. Cohen’s Kappa, Fleiss’ Kappa 및 ICC와 같은 방법은 이러한 합의를 정량화하는 데 도움이 됩니다. 명확한 지침, 교육 및 편향 제어를 통해 신뢰할 수 있는 어노테이션은 더 강력한 데이터와 더 나은 모델 결과를 가져옵니다.
커뮤니티에 참여하고 GitHub 저장소를 탐색하여 AI에 대해 자세히 알아보세요. 자체 Vision AI 프로젝트를 시작하려는 경우 라이선스 옵션을 확인하세요. 또한 솔루션 페이지를 방문하여 헬스케어 분야의 AI와 리테일 분야의 Vision AI가 어떻게 영향을 미치는지 확인할 수 있습니다.