욜로 비전 선전
선전
지금 참여하기
용어집

관찰 가능성

관찰 가능성이 Ultralytics YOLO와 같은 AI/ML 시스템을 어떻게 향상시키는지 알아보세요. 실제 애플리케이션에서 인사이트를 얻고, 성능을 최적화하며, 안정성을 보장하세요.

관측 가능성은 시스템의 내부 상태에 대한 고충실도 데이터를 제공하도록 시스템을 설계하고 계측하여 팀이 시스템의 동작을 효과적으로 탐색, 디버깅 및 이해할 수 있도록 하는 방법입니다. 인공 지능(AI)머신 러닝(ML)의 맥락에서 이는 단순한 모니터링을 넘어 복잡한 모델 및 데이터 파이프라인에 대한 심층적인 통찰력을 제공합니다. 미리 정의된 성능 지표를 추적하는 대신, 관측 가능한 시스템은 새로운 질문을 하고 모델 배포 후 알려지지 않은 문제를 진단할 수 있도록 풍부하고 탐색 가능한 데이터를 제공합니다.

관측 가능성 vs. 모니터링

관찰 가능성과 모델 모니터링은 함께 자주 사용되지만, 서로 다른 개념입니다.

  • 모니터링은 알려진 실패 모드를 감시하기 위해 데이터를 수집하고 분석하는 프로세스입니다. 오류율이 5%를 초과하거나 추론 지연 시간이 200ms를 초과하는 것과 같이 특정, 미리 정의된 임계값에 대한 경고를 설정합니다. 이는 무언가 잘못되었는지 알려줍니다.
  • 관찰 가능성은 이전에 문제를 본 적이 없더라도 시스템에 문제가 발생한 이유를 이해할 수 있게 해주는 시스템의 속성입니다. 자세한 로그, 메트릭 및 추적을 사용하여 탐색적 분석 및 근본 원인 식별을 지원합니다. 관찰 가능한 시스템은 더 많은 정보를 수집하기 위해 새로운 코드를 제공하지 않고도 디버깅할 수 있는 시스템입니다. 이 기능은 프로덕션 환경에서 AI 시스템의 예측 불가능한 특성을 관리하는 데 매우 중요합니다.

관찰 가능성의 세 가지 기둥

관측 가능성은 일반적으로 세 가지 핵심 유형의 원격 측정 데이터를 기반으로 구축됩니다.

  1. 로그: 이벤트의 변경 불가능한 타임스탬프 기록입니다. ML 시스템에서 로그는 개별 예측 요청, 데이터 유효성 검사 오류 또는 시스템 구성 변경 사항을 캡처할 수 있습니다. 기존 로깅은 단순한 텍스트일 수 있지만 구조화된 로깅(JSON 형식 등)을 사용하면 로그를 대규모로 쿼리하고 분석하기가 훨씬 쉽습니다.
  2. 메트릭: 이는 시간이 지남에 따라 측정된 데이터의 숫자 표현입니다. ML 시스템의 주요 메트릭에는 모델 정확도, 예측 처리량, CPU/GPU 사용률 및 메모리 사용량이 포함됩니다. Prometheus와 같은 시계열 데이터베이스는 일반적으로 이 데이터를 저장하고 쿼리하는 데 사용됩니다.
  3. 추적: 추적은 시스템의 모든 구성 요소를 통해 이동할 때 단일 요청 또는 트랜잭션에 대한 자세한 보기를 제공합니다. 컴퓨터 비전 파이프라인에서 추적은 수집 및 전처리부터 모델 추론 및 후처리에 이르기까지 단일 이미지를 따라가며 각 단계에서 소요된 시간을 보여줄 수 있습니다. 이는 분산 시스템에서 병목 현상 및 오류를 정확히 찾아내는 데 매우 중요합니다.

관찰 가능성이 AI 시스템에 중요한 이유는 무엇인가

딥 러닝 모델은 매우 복잡하고 불투명하여 실제 세계에서 그 동작을 이해하기 어려울 수 있습니다. 관찰 가능성은 다음에 필수적입니다.

  • 디버깅 및 문제 해결(Debugging and Troubleshooting): Ultralytics YOLO11과 같은 모델이 잘못된 예측을 하는 경우, 관찰 가능성 도구를 사용하여 입력 데이터와 모델 활성화를 추적하여 원인을 파악할 수 있습니다.
  • 드리프트 감지: AI 모델은 데이터 드리프트(프로덕션 데이터 분포가 학습 데이터에서 변경될 때) 또는 개념 드리프트로 인해 시간이 지남에 따라 저하될 수 있습니다. 관찰 가능성은 데이터 분포 및 모델 성능을 모니터링하여 이러한 변화를 감지하는 데 도움이 됩니다.
  • 신뢰 및 공정성 보장: 의료 분야의 AI와 같은 민감한 애플리케이션에서 관찰 가능성은 모델 결정에 대한 명확한 감사 추적을 제공하여 설명 가능한 AI(XAI)AI 투명성을 지원합니다. 이는 규정 준수 및 이해 관계자와의 신뢰 구축에 매우 중요합니다.
  • 성능 최적화: 리소스 사용량 및 지연 시간을 추적함으로써 팀은 모델 효율성을 최적화하고 운영 비용을 절감할 수 있으며, 이는 MLOps의 핵심 목표입니다.

실제 애플리케이션

  1. 자율 주행 차량: 자율 주행 차량은 실시간 객체 탐지를 위해 인식 모델을 사용합니다. 관찰 가능성 도구는 센서에서 의사 결정에 이르기까지 전체 시스템을 통해 카메라 프레임을 추적합니다. 차량이 황혼에 보행자를 탐지하지 못하면 엔지니어는 이미지 전처리 단계의 지연 시간이 원인인지 추적을 사용하여 확인할 수 있습니다. 또한 하루 중 다른 시간에 걸쳐 탐지 신뢰도 점수에 대한 메트릭을 분석하여 시스템 문제를 식별할 수도 있습니다.
  2. 소매 재고 관리: 스마트 소매 시스템은 카메라를 사용하여 선반 재고를 모니터링합니다. 관찰 가능성 플랫폼은 선반당 감지된 제품 수, API 호출 빈도 및 예측 대기 시간을 추적합니다. 시스템에서 특정 제품에 대한 잘못된 재고 수준을 보고하는 경우 개발자는 해당 제품의 SKU에 대한 추적을 필터링하고, 기록된 이미지 및 예측 점수를 검사하고, 조명이 좋지 않거나 특이한 포장으로 인해 문제가 발생하는지 확인할 수 있습니다. 이를 통해 신속한 진단과 더 나은 데이터 증강을 통한 재학습이 가능합니다.

도구 및 플랫폼

관찰 가능성을 구현하려면 특수 도구 및 플랫폼이 필요한 경우가 많습니다. Grafana(시각화), Loki(로그) 및 Jaeger(추적)와 같은 오픈 소스 솔루션이 널리 사용됩니다. OpenTelemetry는 공급업체 중립적인 계측 표준을 제공합니다. Datadog, New RelicDynatrace와 같은 상용 플랫폼은 통합 솔루션을 제공합니다. MLflow, Weights & BiasesClearML과 같은 MLOps 플랫폼에는 실험 추적 및 모델 모니터링 기능이 포함되는 경우가 많습니다. Ultralytics HUB는 훈련 실행 및 배포된 모델 관리를 용이하게 하며, TensorBoard와 같은 도구와 통합하여 메트릭을 시각화합니다. 이는 모델 훈련 단계에서 관찰 가능성의 핵심 측면입니다.

Ultralytics 커뮤니티에 참여하세요

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기
클립보드에 링크가 복사되었습니다.