Глоссарий

Наблюдаемость

Узнай, как наблюдаемость улучшает системы AI/ML, такие как Ultralytics YOLO . Получи информацию, оптимизируй производительность и обеспечь надежность в реальных приложениях.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Наблюдаемость позволяет получить критически важные сведения о поведении и производительности сложных систем, что особенно актуально в динамичной области искусственного интеллекта (AI) и машинного обучения (ML). Для пользователей, работающих со сложными моделями, такими как Ultralytics YOLOпонимание внутреннего состояния развернутых приложений через их внешние выходы является ключом к поддержанию надежности, оптимизации производительности и обеспечению достоверности в реальных приложениях. Это помогает преодолеть разрыв между разработкой модели и успешной эксплуатацией.

Что такое наблюдательность?

Наблюдаемость - это возможность измерить и понять внутреннее состояние системы, изучив ее выходные данные, такие как журналы, метрики и трассировки. В отличие от традиционного мониторинга, который обычно фокусируется на заранее определенных панелях и известных режимах отказа (например, CPU использование процессора, количество ошибок), наблюдаемость позволяет командам проактивно исследовать поведение системы и диагностировать новые проблемы - даже те, которые не были предусмотрены во время разработки. В контексте MLOps (Machine Learning Operations) она позволяет задавать более глубокие вопросы о том , почему система ведет себя определенным образом, что крайне важно для итеративного характера разработки и развертывания ML-моделей. Речь идет о получении видимости сложных систем, включая модели глубокого обучения.

Почему наблюдаемость важна для ИИ/МЛ?

Сложность и зачастую "черноящичный" характер моделей глубокого обучения делают наблюдаемость незаменимой. Основные причины этого включают:

  • Оптимизация производительности: Выявление узких мест в конвейере вывода или во время распределенного обучения, оптимизация использования ресурсов (GPUGPU), а также улучшение таких показателей, как задержка вывода.
  • Надежность и отладка: Быстрое обнаружение и диагностика таких проблем, как дрейф данных, деградация модели с течением времени или неожиданное поведение, вызванное крайними случаями во входных данных. Это помогает поддерживать точность и надежность модели.
  • Доверие и объяснимость: Предоставление информации о предсказаниях и поведении моделей, поддержка усилий по созданию объяснимого ИИ (XAI) и укрепление доверия пользователей, особенно в таких критически важных приложениях, как автономные транспортные средства или здравоохранение.
  • Соответствие нормативным требованиям и управление: Убедись, что модели работают в определенных этических границах(AI Ethics) и соответствуют нормативным требованиям, протоколируя решения и отслеживая алгоритмическую предвзятость. Прозрачность ИИ - одно из ключевых преимуществ.

Наблюдаемость против мониторинга

Хотя они и связаны между собой, наблюдаемость и мониторинг различаются по объему и назначению. Мониторинг включает в себя сбор и анализ данных о заранее определенных метриках для отслеживания состояния системы в сравнении с известными эталонами (например, отслеживание показателя mAP развернутой модели обнаружения объектов ). Он отвечает на вопросы вроде "Работает ли система?" или "Коэффициент ошибок ниже X?". Мониторинг моделей - это особый тип мониторинга, ориентированный на модели ML в производстве.

Однако наблюдаемость использует выходные данные (журналы, метрики, трассы - их часто называют"тремя столпами наблюдаемости") для более глубокого, исследовательского анализа. Он позволяет тебе понять "почему", стоящее за состояниями системы, особенно неожиданными. Думай о мониторинге как о просмотре приборной панели, сообщающей об известных проблемах, в то время как наблюдаемость предоставляет инструменты (например, запросы к журналам или трассировка запросов) для исследования любой аномалии, известной или неизвестной. Это облегчает отладку сложных систем.

Основные компоненты (Три столпа)

Наблюдательность опирается на три основных типа телеметрических данных:

  1. Журналы: Записи дискретных событий, происходящих в системе, с временными метками. Журналы предоставляют подробную, контекстную информацию, полезную для отладки конкретных инцидентов или понимания последовательности операций. В качестве примера можно привести сообщения об ошибках, события приложений или детали запросов.
  2. Метрики: Числовые представления производительности или поведения системы, измеренные за определенные промежутки времени. Метрики являются агрегируемыми и эффективными для отслеживания тенденций, установки предупреждений и понимания общего состояния системы (например, задержка запросов, частота ошибок, использование ресурсов).
  3. Трассы: Записи, показывающие путь запроса или операции по мере их распространения через различные компоненты распределенной системы. Трассировки помогают визуализировать поток, выявить узкие места в производительности и понять зависимости между сервисами, что крайне важно для архитектур микросервисов или сложных конвейеров ML.

Применение в реальном мире

Практика наблюдаемости жизненно важна в сложных AI/ML-развертываниях:

  • Системы автономного вождения: В ИИ для автомобильных решений наблюдаемость имеет решающее значение. Постоянно анализируются логи с датчиков (например, LiDAR, камеры), метрики скорости вывода модели восприятия и трассы, отслеживающие процесс принятия решений от восприятия до управления. Это помогает инженерам таких компаний, как Waymo, диагностировать редкие сбои (например, неправильное определение объекта при определенных погодных условиях) и обеспечивать безопасность и надежность системы.
  • Анализ медицинских изображений: При внедрении ИИ для анализа медицинских изображений наблюдаемость помогает обеспечить качество диагностики. Метрики отслеживают степень доверия к модели и уровень согласия с радиологами. Журналы фиксируют крайние случаи или изображения, отмеченные для пересмотра. Отслеживать изображение можно от момента его получения до предварительной обработки, вывода и составления отчета, что помогает выявить источники ошибок или задержек и обеспечить соответствие нормам здравоохранения(исследование ИИ в радиологии).

Инструменты и платформы

Для реализации наблюдаемости часто используются специализированные инструменты и платформы. Популярны такие решения с открытым исходным кодом, как Prometheus (метрики), Grafana (визуализация), Loki (логи), а также Jaeger или Zipkin (трассировка). OpenTelemetry обеспечивает нейтральный к производителям стандарт для инструментария. Коммерческие платформы вроде Datadog, New Relic и Dynatrace предлагают интегрированные решения. Платформы MLOps, такие как MLflow, Weights & Biases, и ClearML часто включают в себя функции для отслеживания экспериментов и мониторинга моделей, способствуя общей наблюдаемости системы. Ultralytics HUB облегчает управление тренировочными прогонами, наборами данных и развернутыми моделями, интегрируясь с такими инструментами, как TensorBoard, для визуализации метрик, что является ключевым аспектом наблюдаемости на этапе обучения модели.

Читать полностью