욜로 비전 선전
선전
지금 참여하기
용어집

신뢰도

AI 신뢰도 점수를 정의합니다. 모델이 예측 확실성을 측정하고, 신뢰성 임계값을 설정하고, 신뢰도와 정확도를 구별하는 방법을 알아봅니다.

머신 러닝에서 신뢰도 점수는 개별 예측에 할당된 숫자 값으로, 예측이 정확하다는 모델의 확신 정도를 나타냅니다. 백분율 또는 0과 1 사이의 확률 값으로 표시되며 단일 인스턴스에 대한 자체 출력에 대한 모델의 '믿음'을 정량화합니다. 예를 들어, 객체 탐지 작업에서 Ultralytics YOLO11과 같은 모델은 이미지에서 자동차를 식별하고 0.95(또는 95%)의 신뢰도 점수를 할당하여 발견한 내용에 대해 매우 확신하고 있음을 나타낼 수 있습니다. 이 점수는 사용자가 실제 시나리오에서 모델 결과를 필터링, 우선 순위 지정 및 해석하는 데 도움이 되는 중요한 출력입니다.

신뢰도 점수는 일반적으로 신경망(NN)의 마지막 레이어 출력에서 파생되며, 주로 소프트맥스 또는 시그모이드 함수를 사용합니다. 이 값은 특정 수준 이하의 예측을 버리기 위해 신뢰도 임계값을 설정하는 실제 애플리케이션에서 매우 중요합니다. 개발자는 이 임계값을 조정하여 관련된 모든 탐지를 캡처하는 것과 오탐지를 최소화하는 것 사이의 균형을 맞출 수 있으며, 이는 모델 배포에서 중요한 고려 사항입니다.

실제 애플리케이션

신뢰도 점수는 AI 시스템을 더욱 안정적이고 실행 가능하게 만드는 데 필수적입니다. 이를 통해 시스템은 불확실성을 측정하고 그에 따라 다른 응답을 트리거할 수 있습니다.

  • 자율 주행 차량: 자율 주행 자동차에서 신뢰도 점수는 안전에 매우 중요합니다. 객체 감지기는 보행자를 98%의 신뢰도로 식별할 수 있으며, 이는 차량이 속도를 줄이거나 멈추라는 명확한 신호입니다. 반대로 30%의 신뢰도로 객체를 감지하면 시스템은 이를 불확실한 것으로 표시하고 다른 센서를 사용하여 조치를 취하기 전에 해당 특성을 확인할 수 있습니다. 이는 확실성이 높은 위협에 집중하여 사고를 예방하는 데 도움이 됩니다. 이 주제에 대한 자세한 내용은 자율 주행 자동차에서 AI의 역할에 대해 읽어볼 수 있습니다.
  • 의료 영상 분석: AI 모델이 질병 징후에 대해 의료 스캔을 분석할 때(예: 의료 영상에서 종양 탐지) 신뢰도 점수는 매우 중요합니다. 99% 신뢰도의 탐지는 방사선 전문의의 검토를 위해 즉시 플래그가 지정될 수 있습니다. 60% 신뢰도의 발견은 "모호함" 또는 "추가 검토 필요"로 표시되어 불확실한 사례가 전문가에게 허위 경보를 과도하게 발생시키지 않고도 인간의 면밀한 조사를 받도록 합니다. FDA는 의료 기기의 AI/ML에 대한 지침을 제공합니다.

신뢰도 vs 기타 지표

개별 예측의 신뢰도 점수를 전체 모델 평가 지표와 혼동하지 않는 것이 중요합니다. 관련은 있지만 성능의 서로 다른 측면을 측정합니다.

  • 정확도: 전체 데이터 세트에서 정확한 예측의 전체 비율을 측정합니다. 모델 성능에 대한 일반적인 감각을 제공하지만 개별 예측의 확실성을 반영하지는 않습니다. 모델은 정확도가 높을 수 있지만 여전히 낮은 신뢰도로 일부 예측을 할 수 있습니다.
  • 정밀도: 실제로 맞았던 긍정적인 예측의 비율을 나타냅니다. 정확도가 높을수록 오경보가 적습니다. 신뢰도는 예측에 대한 모델의 믿음을 반영하며, 이는 정확도와 일치할 수도 있고 일치하지 않을 수도 있습니다.
  • 리콜(감도): 모델이 올바르게 식별한 실제 양성 사례의 비율을 측정합니다. 정확도가 높을수록 놓치는 탐지 건수가 적습니다. 신뢰도는 실제 발견된 양성 사례의 수와는 직접적인 관련이 없습니다.
  • F1-Score: 정확도와 회수율의 조화 평균으로, 두 지표의 균형을 맞추는 단일 지표를 제공합니다. 신뢰도는 모델 성능의 총합이 아닌 예측 수준의 점수로 유지됩니다.
  • 평균 평균 정밀도(mAP): 다양한 신뢰도 임계값과 클래스에 걸쳐 정밀도-리콜 곡선을 요약하는 객체 탐지의 공통 지표입니다. mAP 계산에는 신뢰도 임계값이 포함되지만, 신뢰도 점수 자체는 각각의 개별 탐지에 적용됩니다.
  • 캘리브레이션(Calibration): 신뢰도 점수가 정확성의 실제 확률과 얼마나 잘 일치하는지를 나타냅니다. 캘리브레이션이 잘 된 모델의 80% 신뢰도를 가진 예측은 약 80%의 시간 동안 정확해야 합니다. 최신 신경망의 신뢰도 점수는 모델 캘리브레이션에 대한 연구에서 논의된 바와 같이 항상 본질적으로 캘리브레이션이 잘 되어 있는 것은 아닙니다.

요약하자면, 신뢰도는 개별 AI 예측의 확실성을 평가하는 데 유용한 결과물이며, 실제 애플리케이션에서 더 나은 필터링, 우선 순위 지정 및 의사 결정을 가능하게 합니다. 이는 Ultralytics HUB와 같은 도구를 사용하여 추적하고 분석할 수 있는 모델의 전체 성능을 평가하는 지표를 보완하지만, 이와는 구별됩니다.

Ultralytics 커뮤니티에 참여하세요

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기
클립보드에 링크가 복사되었습니다.