관찰 가능성
통합 가시성이 어떻게 Ultralytics YOLO 같은 AI/ML 시스템을 향상시키는지 알아보세요. 실제 애플리케이션에서 인사이트를 얻고, 성능을 최적화하고, 안정성을 보장하세요.
통합 가시성을 통해 엔지니어링 팀은 외부 결과물을 기반으로 복잡한 시스템의 내부 상태를 적극적으로 디버그하고
내부 상태를 적극적으로 디버깅하고 이해할 수 있습니다. 빠르게 진화하는 다음과 같은 분야에서
인공 지능(AI) 및
머신 러닝(ML) 분야에서는 이 개념이 매우 중요합니다.
이 개념은 '블랙박스' 배포를 넘어서기 위해 매우 중요합니다. 기존의 소프트웨어 테스트는 로직을 검증할 수 있지만, ML 모델은
은 확률적으로 작동하기 때문에 개발자가 예상치 못한 예측, 성능 저하, 오류의 근본 원인을 조사할 수 있는 시스템을 갖추는 것이 필수적입니다.
예상치 못한 예측, 성능 저하 또는 모델 배포 후의
근본 원인을 조사할 수 있는 시스템이 필수적입니다.
관측 가능성 vs. 모니터링
종종 같은 의미로 사용되지만, 이 용어는 시스템 안정성에 대한 서로 다른 접근 방식을 나타냅니다.
-
모니터링은 "알려진 미지의 영역"에 중점을 둡니다. 여기에는 사전 정의된 대시보드 추적과
및 추론 대기 시간 또는 오류율과 같은 메트릭에 대한
추론 지연 시간 또는 오류율과 같은 메트릭에 대한 알림을 추적합니다. 모니터링
는 "시스템이 건강한가?"라는 질문에 답합니다.
-
관찰 가능성은 "알려지지 않은 미지의 영역"을 해결합니다. 특정 장애가 발생한 이유에 대해 예상치 못한 새로운 질문을
특정 장애가 발생한 이유에 대해 예상치 못한 새로운 질문을 던지는 데 필요한 세분화된 데이터를 제공합니다. 관찰 가능한 시스템인
관찰 가능한 시스템인 Google SRE Book
을 사용하면 새로운 코드를 배포하지 않고도 새로운 동작을 이해할 수 있습니다. "왜
시스템이 이런 식으로 작동하는가?"라는 질문에 답합니다.
관찰 가능성의 세 가지 기둥
심층적인 인사이트를 얻기 위해 통합 가시성은 세 가지 주요 유형의 원격 분석 데이터에 의존합니다:
-
로그: 로그는 타임스탬프가 찍힌 불연속적인 이벤트의 변경 불가능한 기록입니다. 컴퓨터 비전(CV) 파이프라인에서
컴퓨터 비전(CV) 파이프라인에서 로그는 다음을 수행할 수 있습니다.
입력 이미지 치수를 캡처하거나
하이퍼파라미터 튜닝 구성을 캡처할 수 있습니다.
구조화된 로깅(종종 JSON 형식)은 다음과 같은 데이터 분석 도구에서 더 쉽게
쉽게 쿼리할 수 있습니다.
-
메트릭: 시간 경과에 따라 측정된 집계된 수치 데이터, 예를 들어
정확도, 메모리 소비량 또는
GPU 사용률 등 시간 경과에 따라 측정된 수치 데이터. 다음과 같은 시스템
Prometheus와 같은 시스템은 이러한 시계열 데이터를 저장하는 데 널리 사용되며, 이를 통해 팀은 다음과 같은 작업을 수행할 수 있습니다.
추세를 시각화할 수 있습니다.
-
추적: 추적: 추적은 다양한 마이크로서비스를 통해 전파되는 요청의 라이프사이클을 따릅니다.
분산형 AI 애플리케이션의 경우, OpenTelemetry와 호환되는 도구는 요청 경로를 매핑하여
요청의 경로를 매핑하여 추론 엔진 또는 네트워크 지연의
추론 엔진 또는 네트워크 지연을 강조할 수 있습니다.
AI에서 관찰 가능성이 중요한 이유
실제 환경에 모델을 배포하면 통제된 교육 환경에는 존재하지 않는 문제가 발생합니다.
관찰 가능성은 이를 위해 필수적입니다:
-
데이터 드리프트 감지: 시간이 지남에 따라 라이브 데이터는 학습 데이터에서
트레이닝 데이터와 차이가 날 수 있습니다.
데이터 드리프트. 통합 가시성 도구는 입력
분포를 시각화하여 엔지니어에게 재교육이 필요한 시기를 알려줍니다.
-
AI 안전성 보장: 위험도가 높은 도메인의 경우, 모델 결정을 이해하는 것은 다음을 위해 필수적입니다.
AI 안전. 세분화된 인사이트는 감사 결정을 통해
안전 프로토콜에 부합하는지 확인하고
공정성을 보장하는 데 도움이 됩니다.
-
성능 최적화: 상세한 추적 분석을 통해
MLOps 팀은
중복 계산이나 리소스 제약을 파악하여 비용과 속도를 최적화할 수 있습니다.
-
"블랙박스" 디버깅하기: 딥 러닝 모델은 종종 불투명합니다. 통합 가시성 플랫폼
을 사용하면 엔지니어가 고차원 데이터를 잘게 쪼개고 분석하여
특정 엣지 케이스에서 모델이 실패한 이유를 정확히 찾아낼 수 있습니다.
실제 애플리케이션
통합 가시성은 산업 전반에서 최신 AI 솔루션의 신뢰성을 보장하는 데 중추적인 역할을 합니다.
-
자율 주행 차량: 자율 주행 차량 개발에서
자율 주행 차량 개발에서 통합 가시성을 통해
엔지니어는 연결 해제 이벤트가 발생하는 동안 시스템의 정확한 상태를 재구성할 수 있습니다. 물체 감지 출력과
물체 감지 출력과 센서 로그 및
제어 명령과 연관시켜 제동 오류가 센서 노이즈 때문인지 모델 예측 오류 때문인지 파악할 수 있습니다.
-
의료 진단: In
의료 분야의 AI에서는 신뢰할 수 있는 운영이
가장 중요합니다. 관찰 가능성은 의료 영상 모델이 여러 병원에서 일관되게 작동하도록 보장합니다.
일관되게 작동하도록 보장합니다. 모델의 성능이 저하되는 경우, 이미지 해상도의 변화로 인한 문제인지 아니면
데이터 전처리 파이프라인의 지연으로 인한 문제인지 추적할 수 있어 환자 치료에 영향을 주지 않으면서도 신속하게 문제를 해결할 수 있습니다.
Ultralytics 통합 가시성 구현하기
효과적인 통합 가시성은 적절한 로깅과 실험 추적에서 시작됩니다. Ultralytics 모델은 MLflow와 같은 도구와
MLflow와 같은 도구와 원활하게 통합됩니다,
Weights & Biases및
메트릭, 매개 변수 및
아티팩트를 자동으로 기록할 수 있습니다.
다음 예는
YOLO11 모델을 훈련하는 방법을 보여줍니다.
구조로 로그를 구성하는 방법을 보여줍니다:
from ultralytics import YOLO
# Load the YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model, saving logs and results to a specific project directory
# This creates structured artifacts useful for post-training analysis
model.train(data="coco8.yaml", epochs=3, project="observability_logs", name="experiment_1")
프로덕션 환경의 경우, 팀은 종종 이러한 로그를 다음과 같은 중앙 집중식 플랫폼으로 집계합니다.
Datadog, New Relic 또는
전체 AI 인프라에 대한 통합된 보기를 유지하기 위한
인프라에 대한 통합 보기를 유지합니다. 다음과 같은 오픈 소스 대시보드를 사용하여 고급 시각화를 달성할 수도 있습니다.
Grafana.