Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Observabilité

Découvrez comment l'observabilité améliore les systèmes d'IA/ML tels que Ultralytics YOLO. Obtenez des informations, optimisez les performances et assurez la fiabilité dans les applications concrètes.

L'observabilité est la pratique consistant à concevoir et à instrumenter des systèmes pour fournir des données de haute fidélité sur leur état interne, permettant aux équipes d'explorer, de déboguer et de comprendre efficacement leur comportement. Dans le contexte de l'intelligence artificielle (IA) et de l'apprentissage automatique (ML), elle va au-delà de la simple surveillance pour permettre des informations approfondies sur les modèles complexes et les pipelines de données. Au lieu de simplement suivre des métriques de performance prédéfinies, un système observable fournit des données riches et explorables qui vous permettent de poser de nouvelles questions et de diagnostiquer des problèmes inconnus après le déploiement du modèle.

Observabilité vs. Surveillance

Bien que souvent utilisés ensemble, l'observabilité et la surveillance des modèles sont des concepts distincts.

  • La surveillance est le processus de collecte et d'analyse de données pour surveiller les modes de défaillance connus. Vous configurez des alertes pour des seuils spécifiques et prédéfinis, tels qu'un taux d'erreur dépassant 5 % ou une latence d'inférence dépassant 200 ms. Elle vous indique si quelque chose ne va pas.
  • L'observabilité est une propriété du système qui vous permet de comprendre pourquoi quelque chose ne va pas, même si vous n'avez jamais rencontré le problème auparavant. Elle utilise des journaux, des métriques et des traces détaillés pour permettre une analyse exploratoire et l'identification de la cause première. Un système observable est un système que vous pouvez déboguer sans avoir à expédier un nouveau code pour recueillir plus d'informations. Cette capacité est essentielle pour gérer la nature imprévisible des systèmes d'IA en production.

Les trois piliers de l'observabilité

L'observabilité repose généralement sur trois types principaux de données de télémétrie :

  1. Logs : Ce sont des enregistrements immuables et horodatés d'événements. Dans les systèmes de ML, les logs peuvent capturer des demandes de prédiction individuelles, des erreurs de validation de données ou des modifications de configuration du système. Bien que la journalisation traditionnelle puisse être un simple texte, la journalisation structurée (par exemple, au format JSON) rend les logs beaucoup plus faciles à interroger et à analyser à grande échelle.
  2. Métriques : Il s'agit de représentations numériques de données mesurées dans le temps. Les principales métriques des systèmes de ML comprennent la précision du modèle, le débit de prédiction, l'utilisation du CPU/GPU et l'utilisation de la mémoire. Les bases de données de séries temporelles comme Prometheus sont couramment utilisées pour stocker et interroger ces données.
  3. Traces : Les traces fournissent une vue détaillée d'une seule requête ou transaction lorsqu'elle se déplace dans tous les composants d'un système. Dans un pipeline de vision par ordinateur, une trace pourrait suivre une seule image depuis l'ingestion et le prétraitement jusqu'à l'inférence du modèle et le post-traitement, en indiquant le temps passé à chaque étape. Ceci est inestimable pour identifier les goulots d'étranglement et les erreurs dans les systèmes distribués.

Pourquoi l'observabilité est-elle cruciale pour les systèmes d'IA ?

Les modèles d'apprentissage profond peuvent être très complexes et opaques, ce qui rend difficile la compréhension de leur comportement dans le monde réel. L'observabilité est essentielle pour :

  • Débogage et dépannage : Lorsqu'un modèle comme Ultralytics YOLO11 fait une prédiction incorrecte, les outils d'observabilité peuvent aider à retracer les données d'entrée et les activations du modèle pour comprendre la cause.
  • Détection de la dérive : Les modèles d'IA peuvent se dégrader avec le temps en raison de la dérive des données (lorsque la distribution des données de production diffère des données d'entraînement) ou de la dérive du concept. L'observabilité aide à détecter ces changements en surveillant les distributions de données et les performances du modèle.
  • Garantir la confiance et l'équité : Dans les applications sensibles comme l'IA dans le domaine de la santé, l'observabilité prend en charge l'IA explicable (XAI) et la transparence dans l'IA en fournissant une piste d'audit claire des décisions du modèle. Ceci est crucial pour la conformité réglementaire et pour établir la confiance avec les parties prenantes.
  • Optimisation des performances : En suivant l'utilisation des ressources et la latence, les équipes peuvent optimiser l'efficacité du modèle et réduire les coûts opérationnels, ce qui est un objectif clé du MLOps.

Applications concrètes

  1. Véhicules autonomes : Un véhicule autonome utilise un modèle de perception pour la détection d'objets en temps réel. L'outillage d'observabilité retrace une image de caméra à travers l'ensemble du système, du capteur à la décision. Si le véhicule ne parvient pas à détecter un piéton au crépuscule, les ingénieurs peuvent utiliser les traces pour voir si la latence de l'étape de prétraitement de l'image en était la cause. Ils peuvent également analyser les métriques sur les scores de confiance de la détection à différents moments de la journée afin d'identifier les problèmes systémiques.
  2. Gestion des stocks en magasin : Un système de vente au détail intelligent utilise des caméras pour surveiller les stocks en rayon. Une plateforme d'observabilité suit le nombre de produits détectés par rayon, la fréquence des appels API et la latence des prédictions. Si le système signale des niveaux de stock incorrects pour un produit particulier, les développeurs peuvent filtrer les traces pour le SKU de ce produit, inspecter les images enregistrées et les scores de prédiction, et déterminer si un mauvais éclairage ou un emballage inhabituel est à l'origine du problème. Cela permet un diagnostic rapide et un réentraînement avec une meilleure augmentation des données.

Outils et plateformes

La mise en œuvre de l'observabilité implique souvent des outils et des plateformes spécialisés. Les solutions open source comme Grafana (visualisation), Loki (journaux) et Jaeger (traçage) sont populaires. OpenTelemetry fournit une norme neutre vis-à-vis des fournisseurs pour l'instrumentation. Les plateformes commerciales comme Datadog, New Relic et Dynatrace offrent des solutions intégrées. Les plateformes MLOps telles que MLflow, Weights & Biases et ClearML incluent souvent des fonctionnalités de suivi des expériences et de surveillance des modèles. Ultralytics HUB facilite la gestion des exécutions d'entraînement et des modèles déployés, en s'intégrant à des outils comme TensorBoard pour la visualisation des métriques, ce qui est un aspect clé de l'observabilité pendant la phase d'entraînement du modèle.

Rejoignez la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant
Lien copié dans le presse-papiers