YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024

AI 혁신의 영향력을 평가하기 위한 AI 성능 측정

Abirami Vina

5분 분량

2024년 8월 22일

적절한 KPI 및 성능 지표를 사용하여 AI 혁신의 성공 여부를 모니터링할 수 있습니다. AI 애플리케이션의 영향을 추적하고 최적화하는 방법을 알아보세요.

이전에 의료, 제조관광과 같은 다양한 산업에서 AI가 어떻게 사용될 수 있는지 살펴보았습니다. 또한 AI가 일상적인 업무를 어떻게 개선할 수 있는지주요 AI 비즈니스 아이디어에 대해서도 논의했습니다. 이러한 모든 논의는 필연적으로 동일한 핵심 질문으로 이어집니다. 이러한 AI 구현의 성공을 어떻게 측정할 수 있을까요? AI 솔루션을 배포하는 것만으로는 충분하지 않기 때문에 중요한 질문입니다. 이러한 솔루션이 실제로 결과를 제공하는지 확인하는 것이 판도를 바꾸는 것입니다. 

AI 성능 지표를 측정하여 AI 모델이 프로세스를 보다 효율적으로 만들고, 혁신을 촉진하거나, 문제를 해결하는 데 실제로 효과적인지 확인할 수 있습니다. 올바른 핵심 성과 지표(KPI)에 집중함으로써 AI 솔루션이 얼마나 잘 작동하는지, 그리고 개선이 필요한 부분을 파악할 수 있습니다.

이 기사에서는 가장 관련성이 높은 KPI를 사용하여 AI 구현의 성공을 측정하는 방법을 살펴봅니다. 비즈니스 KPI와 AI 성능 KPI의 차이점을 다루고, 정밀도 및 재현율과 같은 주요 지표를 살펴보고, 특정 AI 솔루션에 가장 적합한 KPI를 선택하는 데 도움을 드립니다.

AI 비즈니스 KPI와 AI 성능 KPI의 차이점

__wf_reserved_inherit
그림 1. AI 비즈니스 KPI와 AI 성능 KPI 비교.

KPI에 대해 생각할 때, 특히 엔터프라이즈 AI에 대해 이야기할 때는 투자 수익(ROI), 비용 절감 또는 수익 창출과 같은 비즈니스 지표에 관한 것이라고 가정하는 것이 자연스럽습니다. 이러한 AI 비즈니스 KPI는 AI가 회사의 전반적인 성공에 미치는 영향을 측정하고 광범위한 비즈니스 목표와 일치합니다. 

그러나 AI 성능 KPI는 정확도, 정밀도 및 재현율과 같은 지표를 사용하여 AI 시스템 자체가 얼마나 잘 작동하는지에 중점을 둡니다. 이러한 지표에 대한 자세한 내용은 아래에서 다루겠지만, 본질적으로 비즈니스 KPI는 AI의 재정적 및 전략적 이점을 보여주는 반면, 성능 KPI는 AI 모델이 효과적으로 작업을 수행하고 있는지 확인합니다.

특정 지표는 실제로 두 가지 목적을 모두 수행할 수 있습니다. 예를 들어, 작업을 완료하는 데 필요한 시간 또는 리소스 감소와 같은 효율성 향상은 AI 솔루션이 얼마나 잘 작동하는지 보여주는 성능 KPI와 비용 절감 및 생산성 향상을 측정하는 비즈니스 KPI가 될 수 있습니다. 고객 만족도는 또 다른 교차 지표입니다. 이는 기술적 성능과 전반적인 비즈니스 목표에 미치는 영향 모두 측면에서 AI 기반 고객 서비스 도구의 성공을 반영할 수 있습니다.

주요 AI 성능 지표 이해

AI 모델의 성능을 측정하는 데 사용되는 몇 가지 일반적인 지표가 있습니다. 먼저 정의와 계산 방법을 살펴봅니다. 그런 다음 이러한 지표를 어떻게 모니터링할 수 있는지 살펴보겠습니다.

정밀도

정밀도는 AI 모델이 참 긍정(모델이 객체 또는 조건을 올바르게 식별하는 인스턴스)을 얼마나 정확하게 식별하는지 측정하는 지표입니다. 예를 들어, 얼굴 인식 시스템에서 참 긍정은 시스템이 훈련된 대로 사람의 얼굴을 올바르게 인식하고 식별할 때 발생합니다 감지

정밀도를 계산하려면 먼저 참 긍정의 수를 셉니다. 그런 다음 이 값을 모델이 긍정으로 레이블을 지정한 총 항목 수로 나눌 수 있습니다. 이 총계에는 올바른 식별과 오탐(잘못된 긍정)이라고 하는 실수 모두가 포함됩니다. 기본적으로 정밀도는 모델이 무언가를 인식했다고 주장할 때 얼마나 자주 올바른지 알려줍니다.

__wf_reserved_inherit
그림 2. 정밀도 이해.

특히 오탐의 결과가 비용이 많이 들거나 파괴적일 수 있는 시나리오에서 중요합니다. 예를 들어, 자동화된 제조에서 높은 정밀도율은 시스템이 불량 제품을 보다 정확하게 식별하고 양호한 품목의 불필요한 폐기 또는 재작업을 방지할 수 있음을 나타냅니다. 또 다른 좋은 예는 보안 감시입니다. 높은 정밀도는 오경보를 최소화하고 보안 대응이 필요한 실제 위협에만 집중하는 데 도움이 됩니다.

재현율(Recall)

재현율은 데이터 세트 내에서 AI 모델이 모든 관련 인스턴스, 즉 참 긍정을 식별하는 능력을 측정하는 데 도움이 됩니다. 간단히 말해, AI 시스템이 탐지하도록 설계된 조건 또는 객체의 실제 사례를 얼마나 잘 포착하는지를 나타냅니다. 재현율은 올바른 탐지 횟수를 탐지되었어야 하는 총 긍정 사례 수로 나누어 계산할 수 있습니다(모델이 올바르게 식별한 사례와 놓친 사례 모두 포함).

암 진단에 사용되는 AI 기반 의료 영상 시스템을 생각해 보세요. 여기서 재현율은 시스템이 올바르게 식별하는 실제 암 사례의 비율을 반영합니다. 암 진단을 놓치면 환자 치료에 심각한 결과를 초래할 수 있으므로 이러한 시나리오에서는 높은 재현율이 매우 중요합니다.

정밀도 대 재현율

정밀도와 재현율은 AI 모델의 성능을 평가할 때 동전의 양면과 같으며, 균형이 필요한 경우가 많습니다. 어려운 점은 하나의 지표를 개선하면 다른 지표가 희생될 수 있다는 것입니다. 

정밀도를 높이는 데 집중한다고 가정해 보겠습니다. 모델이 더 선택적으로 되어 매우 확신하는 긍정만 식별할 수 있습니다. 반면에 재현율을 개선하는 것을 목표로 한다면 모델이 더 많은 긍정을 식별할 수 있지만, 여기에는 더 많은 거짓 긍정이 포함되어 정밀도가 낮아질 수 있습니다. 

핵심은 애플리케이션의 특정 요구 사항에 따라 정밀도와 재현율 간의 적절한 균형을 찾는 것입니다. 이를 위한 유용한 도구는 다양한 임계값에서 두 지표 간의 관계를 보여주는 정밀도-재현율 곡선입니다. 이 곡선을 분석하여 특정 사용 사례에 가장 적합한 모델 성능 지점을 결정할 수 있습니다. 이러한 상충 관계를 이해하면 의도한 사용 사례에 맞게 최적의 성능을 발휘하도록 AI 모델을 미세 조정하는 데 도움이 됩니다.

__wf_reserved_inherit
그림 3. 정밀도-재현율 곡선의 예.

평균 정밀도(mAP)

평균 정밀도(mAP)는 모델이 이미지 내에서 여러 객체를 식별하고 분류해야 하는 객체 탐지와 같은 작업에서 AI 모델의 성능을 평가하는 데 사용되는 지표입니다. mAP는 모델이 인식하도록 훈련된 모든 범주에서 모델이 얼마나 잘 수행되는지 보여주는 단일 점수를 제공합니다. 계산 방법을 살펴보겠습니다.

정밀도-재현율 곡선 아래 영역은 해당 클래스의 평균 정밀도(AP)를 제공합니다. AP는 다양한 신뢰도 수준에서 정밀도와 재현율을 모두 고려하여 모델이 특정 클래스에 대한 예측을 얼마나 정확하게 수행하는지 측정합니다(신뢰도 수준은 모델이 예측에 대해 얼마나 확신하는지를 나타냅니다). 각 클래스에 대해 AP가 계산되면 이러한 AP 값을 모든 클래스에서 평균하여 mAP가 결정됩니다.

__wf_reserved_inherit
그림 4. 다양한 클래스의 평균 정밀도.

mAP는 보행자, 차량 및 교통 표지판과 같은 여러 객체를 동시에 탐지해야 하는 자율 주행과 같은 애플리케이션에서 유용합니다. 높은 mAP 점수는 모델이 모든 범주에서 일관되게 잘 수행되어 광범위한 시나리오에서 안정적이고 정확하다는 것을 의미합니다.

성능 지표를 간편하게 계산

주요 AI 성능 지표를 계산하는 공식과 방법은 daunting하게 보일 수 있습니다. 그러나 Ultralytics 패키지와 같은 도구를 사용하면 간단하고 빠르게 만들 수 있습니다. 객체 탐지, 세분화 또는 분류 작업을 수행하든 Ultralytics는 정밀도, 재현율 및 평균 정밀도(mAP)와 같은 중요한 지표를 빠르게 계산하는 데 필요한 유틸리티를 제공합니다.

Ultralytics를 사용하여 성능 지표 계산을 시작하려면 아래와 같이 Ultralytics 패키지를 설치할 수 있습니다.

이 예에서는 사전 훈련된 YOLOv8 모델을 로드하고 이를 사용하여 성능 지표를 검증하지만, Ultralytics에서 제공하는 지원되는 모델을 로드할 수도 있습니다. 방법은 다음과 같습니다.

모델이 로드되면 데이터 세트에서 유효성 검사를 수행할 수 있습니다. 다음 코드 조각은 정밀도, 재현율 및 mAP를 포함한 다양한 성능 지표를 계산하는 데 도움이 됩니다.

Ultralytics와 같은 도구를 사용하면 성능 지표를 훨씬 쉽게 계산할 수 있으므로 모델 개선에 더 많은 시간을 할애하고 평가 프로세스의 세부 사항에 대해 걱정하는 시간을 줄일 수 있습니다.

배포 후 AI 성능은 어떻게 측정되나요?

AI 모델을 개발할 때 통제된 환경에서 성능을 테스트하는 것은 쉽습니다. 그러나 모델이 배포되면 상황이 더 복잡해질 수 있습니다. 다행히 배포 후 AI 솔루션을 모니터링하는 데 도움이 되는 도구와 모범 사례가 있습니다. 

Prometheus, Grafana 및 Evidently AI와 같은 도구는 모델의 성능을 지속적으로 추적하도록 설계되었습니다. 실시간 통찰력을 제공하고, 이상 징후를 감지하고, 잠재적인 문제에 대해 경고할 수 있습니다. 이러한 도구는 프로덕션 환경에서 AI 모델의 동적 특성에 적응하는 자동화된 확장 가능한 솔루션을 제공하여 기존 모니터링을 뛰어넘습니다.

배포 후 AI 모델의 성공을 측정하기 위해 따라야 할 몇 가지 모범 사례는 다음과 같습니다.

  • 명확한 성능 지표 설정: 모델이 얼마나 잘 수행되고 있는지 정기적으로 확인하기 위해 정확도, 정밀도 및 응답 시간과 같은 주요 지표를 결정합니다.
  • 데이터 드리프트를 정기적으로 확인: 모델이 처리하는 데이터의 변화를 주시하십시오. 제대로 관리하지 않으면 예측에 영향을 미칠 수 있습니다.
  • A/B 테스트 수행: A/B 테스트를 사용하여 현재 모델의 성능을 새로운 버전 또는 조정 사항과 비교합니다. 이를 통해 모델 동작의 개선 또는 퇴보를 정량적으로 평가할 수 있습니다.
  • 성능 문서화 및 감사: AI 시스템에 대한 성능 지표 및 변경 사항에 대한 자세한 로그를 보관합니다. 이는 감사, 규정 준수 및 시간이 지남에 따라 모델 아키텍처를 개선하는 데 매우 중요합니다.

최적의 AI KPI를 선택하는 것은 시작에 불과합니다.

AI 솔루션을 성공적으로 배포하고 관리하는 것은 올바른 KPI를 선택하고 최신 상태로 유지하는 데 달려 있습니다. 전반적으로 AI 솔루션이 기술적으로 얼마나 잘 작동하는지, 비즈니스에 미치는 영향은 무엇인지 강조하는 지표를 선택하는 것이 중요합니다. 기술 발전이든 비즈니스 전략의 변화이든 상황이 변화함에 따라 이러한 KPI를 재검토하고 조정하는 것이 중요합니다. 

성과 검토를 동적으로 유지함으로써 AI 시스템을 관련성 있고 효과적으로 유지할 수 있습니다. 이러한 지표를 지속적으로 관리하면 운영 개선에 도움이 되는 귀중한 통찰력을 얻을 수 있습니다. 사전 예방적 접근 방식은 AI 노력이 진정으로 가치 있고 비즈니스를 발전시키는 데 도움이 되도록 보장합니다!

커뮤니티에 참여하여 함께 혁신하십시오! AI 발전을 확인하려면 GitHub 저장소를 탐색하십시오. 선구적인 AI 기술로 제조헬스케어와 같은 산업을 어떻게 재편하고 있는지 알아보십시오. 🚀

함께 미래의 AI를 만들어 갑시다!

미래의 머신러닝 여정을 시작하세요

무료로 시작하기
클립보드에 링크가 복사되었습니다.