AI 모델을 구축할 때 데이터의 품질은 그 뒤에 있는 알고리즘만큼이나 중요합니다. 여러 사람이 동일한 데이터에 라벨을 붙이거나 검토할 때마다 의견 불일치가 발생할 수밖에 없습니다. 이는 연구, 의료, 교육 등 여러 분야에서 마찬가지입니다.
특히 이미지나 동영상과 같은 시각적 데이터를 해석하기 위해 Ultralytics YOLO11과 같은 모델을 학습시키는 AI의 한 분야인 컴퓨터 비전에서는 레이블이 지정된 예제가 중요한 역할을 합니다. 이러한 레이블이 일관되지 않으면 컴퓨터 비전 모델이 올바른 패턴을 학습하는 데 어려움을 겪을 수 있습니다.
평가자 간 신뢰도(IRR)는 서로 다른 개인 또는 라벨러가 작업에 대해 얼마나 일관되게 동의하는지를 측정합니다. 일관성을 모니터링하고 훈련, 지침 또는 해석의 차이를 파악하는 데 도움이 됩니다. 이는 특정 목적을 위해 특정 데이터를 사용하여 AI 모델을 구축하는 사용자 지정 모델 학습에서 특히 중요합니다.
이 문서에서는 평가자 간 신뢰도의 정의, 측정 방법 및 실제 프로젝트에서 신뢰도를 개선하는 방법에 대해 살펴봅니다. 지금 바로 시작하세요!
평가자 간 신뢰도는 동일한 콘텐츠를 라벨링, 평가 또는 검토할 때 두 명 이상의 사람(평가자라고도 함)이 얼마나 자주 동의하는지를 측정합니다. 서로 다른 평가자가 주어진 기준을 얼마나 일관되게 사용하는지 확인하는 데 사용됩니다. 평가자 간의 일치도가 높다는 것은 작업이 잘 정의되어 있고 명확하게 이해되고 있음을 의미합니다.
이 개념은 다양한 분야에서 사용됩니다. 분야에 따라 평가자 간 합의, 관찰자 간 신뢰도 또는 코더 간 신뢰도 등 다양한 이름으로 알려져 있습니다. 그러나 기본 원칙은 동일하게 유지됩니다.
비전 AI에서 평가자 간 신뢰성은 데이터 라벨링 프로세스의 핵심 부분입니다. 컴퓨터 비전 모델을 학습하려면 이미지 또는 비디오 프레임의 방대한 데이터 세트에 라벨을 지정해야 하는 경우가 많기 때문에 여러 AI 개발자가 동일한 데이터에 대해 함께 작업합니다.
정확한 결과를 얻으려면 동일한 라벨링 가이드라인을 따라야 합니다. 예를 들어, 동물에 라벨을 붙일 때는 무엇이 개로 간주되는지, 그 주위에 경계 상자를 그리는 방법, 흐릿한 물체에 라벨을 붙일지 무시할지에 대해 모두가 명확하게 합의해야 합니다.
사람들이 데이터에 라벨을 붙이거나 점수를 매길 때 고려해야 할 신뢰도에는 세 가지 주요 유형이 있습니다. 각 유형은 결과의 일관성을 측정하는 데 있어 서로 다른 용도로 사용됩니다. 각 유형에 대해 자세히 살펴보겠습니다:
이러한 조치를 통해 사람과 프로세스 모두 안정적이고 신뢰할 수 있는 결과를 창출하고 있는지 확인할 수 있습니다.
대규모 비전 AI 프로젝트에서 라벨링된 데이터의 품질은 모델의 성능에 직접적인 영향을 미칩니다. 어노테이터가 가이드라인을 적용하는 방식에 작은 차이가 있어도 학습 중에 모델에 혼란을 주는 불일치가 발생할 수 있습니다. 시간이 지남에 따라 부정확한 예측, 리소스 낭비, 값비싼 라벨링 재작업의 필요성으로 이어질 수 있습니다.
평가자 간 신뢰도를 측정하면 이러한 문제를 조기에 발견하는 데 도움이 됩니다. 일치도가 높다는 것은 주석가들의 의견이 일치하여 더 깔끔하고 신뢰할 수 있는 데이터 세트를 생성한다는 뜻입니다. 일치도가 낮으면 프로젝트를 진행하기 전에 지침, 예제 또는 교육을 개선해야 할 수도 있다는 신호입니다. 라벨러가 동기화되도록 함으로써 팀은 보다 효과적으로 학습하고 실제 애플리케이션에서 더 나은 결과를 제공하는 AI 모델을 구축할 수 있습니다.
다음은 여러 평가자와 함께 작업하고 평가자 간 높은 신뢰도를 유지하는 것을 목표로 할 때 염두에 두어야 할 몇 가지 주요 실무 고려 사항입니다:
평가자 간 신뢰도를 측정하는 방법에는 여러 가지가 있으며, 데이터 및 작업 유형에 따라 가장 적합한 방법을 선택해야 합니다. 일부 방법은 단일 평가자가 간단한 예/아니요 질문을 처리하는 경우에 적합하고, 다른 방법은 여러 평가자가 참여하는 상황에 적합하도록 설계되었습니다.
일반적인 접근 방식에는 동의율, 코헨 카파, 플라이스 카파, 클래스 내 상관 계수 등이 있습니다. 각 방법은 평가자 간의 동의 수준을 측정하고 우연히 일부 동의가 발생할 수 있는 가능성을 고려합니다.
코헨 카파는 두 평가자 간의 신뢰도를 측정하는 데 널리 사용되는 방법입니다. 이 방법은 두 평가자가 과제에 대해 얼마나 자주 동의하는지를 계산하는 동시에 우연에 의해 일부 동의가 이루어질 수 있는 가능성을 조정합니다. 점수는 -1에서 1까지이며, 1은 완벽한 합의를 의미하고 0은 무작위 추측보다 더 나은 합의가 없음을 나타냅니다.
마찬가지로 Fleiss의 카파는 두 명 이상의 평가자가 참여할 때 사용됩니다. 이 방법은 그룹이 얼마나 일관성이 있는지 보여주는 전체 점수를 제공합니다. 두 가지 방법 모두 이미지에 라벨을 붙이거나 감정에 태그를 지정하는 등 카테고리가 정해진 작업에 사용됩니다. 계산하기 쉽고 대부분의 주석 도구에서 지원됩니다.
평가자 간 신뢰도를 측정하는 또 다른 방법은 평가자가 동일한 결정을 내리는 비율을 계산하는 일치율입니다. 사용하기는 간단하지만 우연히 발생할 수 있는 의견 일치를 고려하지 않습니다.
한편, 클래스 내 상관 계수는 연속형 또는 척도 기반 데이터에 사용되는 보다 고급 방법입니다. 여러 평가자 간에 평가가 얼마나 일관적인지를 측정하며, 고정된 카테고리를 넘어 점수, 측정값 또는 기타 데이터 유형을 포함하는 연구에 자주 적용됩니다.
이제 평가자 간 신뢰도를 측정하는 방법에 대해 더 잘 이해했으니 실제 애플리케이션에서 이러한 방법을 어떻게 사용할 수 있는지 살펴봅시다.
의료 영상에서는 사소한 해석의 차이도 결과에 큰 변화를 가져올 수 있습니다. 예를 들어, 방사선 전문의는 종종 미묘하거나 모호하거나 정의하기 어려운 패턴을 식별하라는 요청을 받습니다. 이러한 패턴이 AI 시스템의 학습 데이터가 될 경우, 그 위험성은 더욱 커집니다. 전문가가 동일한 스캔에 대해 서로 다른 라벨을 붙이면 모델이 잘못된 패턴을 학습하거나 아예 학습에 실패할 수 있습니다.
평가자 간 신뢰도는 이러한 데이터를 다루는 팀이 전문가의 판단이 실제로 얼마나 일관성이 있는지 평가하는 데 도움이 됩니다. 예를 들어, 망막 OCT 스캔에 초점을 맞춘 최근 연구에서는 두 명의 평가자가 500개의 이미지에 라벨을 붙였습니다.
드루젠(망막 아래 노란색 침착물)과 같은 명확한 특징의 경우 카파 점수가 0.87로 높은 일치도를 보였습니다. 그러나 과반사 초점(망막 스캔에서 보이는 작고 밝은 반점)과 같이 정의하기 어려운 요소의 경우 점수가 0.33으로 떨어졌습니다. 이는 명확하고 잘 정의된 특징일수록 전문가의 판단이 일관된 반면, 모호한 특징일수록 해석의 여지가 많다는 것을 보여줍니다.
자율 주행 시스템을 위한 AI 모델 학습은 다양한 도로 조건에서 정확하고 일관된 레이블에 달려 있습니다. 이러한 프로젝트에 참여하는 어노테이터는 일반적으로 조명이 어둡거나 혼잡한 장면에서 보행자, 차량, 교통 표지판, 차선 표시를 식별해야 하는 경우가 많습니다.
이러한 결정은 모델이 가혹한 실제 환경에서 어떻게 반응하는지를 학습하는 방식을 결정합니다. 평가자 간 신뢰성을 통해 팀은 이러한 레이블이 여러 주석가에게 동일하게 적용되는지 확인할 수 있습니다.
평가자 간 신뢰도를 측정하는 것은 AI 솔루션을 구축하는 데 있어 중요한 단계이지만, 이는 더 광범위한 품질 보증 프로세스의 일부입니다. 다음은 팀과 프로젝트 전반에서 데이터 품질을 개선하는 데 도움이 될 수 있는 몇 가지 다른 관행입니다:
평가자 간 신뢰도는 사람들이 얼마나 일관성 있게 라벨을 적용하거나 의사 결정을 내리는지를 측정합니다. 코헨 카파, 플라이스 카파, ICC와 같은 방법은 이러한 합의를 정량화하는 데 도움이 됩니다. 명확한 가이드라인, 교육, 편향성 제어를 통해 신뢰할 수 있는 주석은 더 강력한 데이터와 더 나은 모델 결과로 이어집니다.
커뮤니티에 가입하고 GitHub 리포지토리를 살펴보고 AI에 대해 자세히 알아보세요. 자체 Vision AI 프로젝트를 시작하려는 경우 라이선스 옵션을 살펴보세요. 또한 솔루션 페이지를 방문하여 의료 분야의 AI와 리테일 분야의 Vision AI가 어떻게 영향을 미치고 있는지 확인할 수 있습니다.