可観測性
観測可能性がUltralytics YOLOようなAI/MLシステムをどのように強化するかをご覧ください。実世界のアプリケーションにおいて、洞察を深め、パフォーマンスを最適化し、信頼性を確保します。
観測可能性によって、エンジニアリング・チームは、外部出力に基づいて複雑なシステムの内部状態を積極的にデバッグし、理解することができる。
を積極的にデバッグし、理解することができる。急速に進化する
人工知能(AI)と
機械学習(ML)の分野では、このコンセプトは「ブラックボックス」配備を超えるために不可欠である。
ブラックボックス」を超えたデプロイメントに不可欠である。従来のソフトウェア・テストはロジックを検証することができるが、MLモデルは確率的に動作する。
MLモデルは確率論的に動作するため、開発者が予期せぬ予測、パフォーマンス低下、または
予想外の予測、性能低下、あるいはモデル展開後の失敗の根本原因を開発者が調査できるシステムが不可欠である。
モデルのデプロイメント。
オブザーバビリティ vs. モニタリング
これらの用語は同じ意味で使われることが多いが、システムの信頼性に対する異なるアプローチを表している。
-
モニタリングは、"既知の未知数 "に焦点を当てる。これは、事前に定義されたダッシュボードを追跡することを含む。
を追跡し
推論レイテンシーやエラー率などのモニタリング
は、"システムは健全か?"という質問に答えるものである。
-
観測可能性は"未知の未知数 "に対処する。それは、特定の故障がなぜ起こったのかについて
特定の故障がなぜ発生したのかについて、予期せぬ新たな疑問を投げかけるために必要な詳細なデータを提供する。グーグルSREブック
で説明されているように、観測可能なシステム
は、新しいコードを出荷することなく、新しい動作を理解することができる。それは、"システムはなぜこのような振る舞いをするのか?
という質問に答えてくれる。
オブザーバビリティの3つの柱
深い洞察を得るために、観測可能性は3つの主要なタイプの遠隔測定データに依存する:
-
ログ:タイムスタンプが押され、不変な個別イベントの記録である。コンピュータビジョン
コンピュータビジョン(CV)パイプラインでは、ログは次のようになります。
入力画像の寸法または
ハイパーパラメータのチューニング設定を記録します。
構造化されたログ(多くの場合JSON形式)は、Splorerのようなデータ分析ツールによるクエリを容易にします。
Splunk のようなデータ分析ツールによるクエリが容易になります。
-
指標:経時的に測定された数値データ。
精度、メモリ消費量、または
GPUの使用率など。プロメテウスのようなシステムは
Prometheusのようなシステムは、これらの時系列データを保存するために広く使用されています。
傾向を可視化することができます。
-
トレース:トレースは、リクエストが様々なマイクロサービスを伝播するライフサイクルを追跡する。
分散AIアプリケーションのために、OpenTelemetryに準拠したツールはリクエストのパスをマッピングすることができる。
リクエストのパスをマッピングし、推論エンジンのボトルネックやネットワークの遅延をハイライトすることができる。
推論エンジンのボトルネックやネットワークの遅延をハイライトする。
AIにおいて観測可能性が重要な理由
モデルを実世界に配備することは、管理されたトレーニング環境にはない課題をもたらす。
観察可能性は、次のような点で不可欠である:
-
データドリフトの検出:時間の経過とともに、実データが学習データから乖離することがある。
これは
データ・ドリフトと呼ばれる現象です。観測可能性ツールは、入力
分布を可視化し、再トレーニングが必要な場合にエンジニアに警告します。
-
AIの安全性を確保する:AIの安全性を確保するためには、モデルの意思決定を理解することが重要です。
重要です。きめ細かな洞察は、以下のような意思決定の監査に役立ちます。
を監査するのに役立ちます。
AIの公平性を確保します。
-
パフォーマンスの最適化:詳細なトレースを分析することで
MLOpsチームは次のことを特定できます。
コストとスピードを最適化することができます。
-
ブラックボックス」のデバッグディープラーニングモデルは不透明であることが多い。観測可能なプラットフォーム
Honeycombのような観測可能なプラットフォームは、エンジニアが高次元のデータをスライスして、特定のエッジケースでモデルが失敗した理由を突き止めることを可能にする。
特定のエッジケースでモデルが失敗した理由を突き止めることができる。
実際のアプリケーション
観測可能性は、業界を問わず最新のAIソリューションの信頼性を確保する上で極めて重要な役割を果たす。
-
自律走行車自律走行車の開発において
自律走行車の開発では、観測可能性によって
エンジニアは、離脱イベント中のシステムの正確な状態を再構築することができます。物体検出出力をセンサーログと
物体検出出力とセンサーログおよび
制御コマンドと相関させることで、チームはブレーキエラーがセンサーのノイズによるものなのか、モデル予測によるものなのかを判断することができます。
-
ヘルスケア診断で
ヘルスケアにおけるAIは、信頼できる運用が
最も重要です。観測可能性により、医療画像モデルが病院のさまざまな機械で一貫して動作することが保証されます。
マシンで一貫したパフォーマンスを保証します。モデルのパフォーマンスが低下した場合、その問題が画像解像度の変化によるものなのか、データ前処理パイプラインの遅延によるものなのかをトレースによって明らかにすることができます。
データ前処理パイプラインの遅延に起因する問題かどうかを明らかにすることができ、患者ケアを損なうことなく迅速な修復が可能になります。
UltralyticsObservabilityを実装する
効果的な観測可能性は、適切なロギングと実験の追跡から始まります。Ultralytics モデルは、MLflowのようなツールとシームレスに統合
MLflowのようなツールとシームレスに統合します、
Weights & Biasesおよび
TensorBoardなどのツールとシームレスに統合され、メトリクス、パラメータ
アーティファクトを自動的に記録します。
以下の例では
YOLO11モデルを学習する方法を示す。
これはファイルベースの観測可能性の基礎である:
from ultralytics import YOLO
# Load the YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model, saving logs and results to a specific project directory
# This creates structured artifacts useful for post-training analysis
model.train(data="coco8.yaml", epochs=3, project="observability_logs", name="experiment_1")
本番環境の場合、チームはこれらのログを次のような集中型プラットフォームに集約することが多い。
Datadog、New Relic、または
Elastic Stackのような集中型プラットフォームに集約し、AI
インフラ全体を一元的に把握できる。のようなオープンソースのダッシュボードを使用して、高度な可視化を実現することもできます。
Grafana。