Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Наблюдаемость

Узнайте, как наблюдаемость (observability) улучшает системы AI/ML, такие как Ultralytics YOLO. Получайте аналитические данные, оптимизируйте производительность и обеспечьте надежность в реальных приложениях.

Наблюдаемость (Observability) — это практика проектирования и оснащения систем для предоставления высокоточных данных об их внутреннем состоянии, что позволяет командам эффективно исследовать, отлаживать и понимать их поведение. В контексте искусственного интеллекта (AI) и машинного обучения (ML) это выходит за рамки простого мониторинга и позволяет получить глубокое понимание сложных моделей и конвейеров данных. Вместо простого отслеживания предопределенных метрик производительности, наблюдаемая система предоставляет богатые, доступные для изучения данные, которые позволяют задавать новые вопросы и диагностировать неизвестные проблемы после развертывания модели.

Наблюдаемость (Observability) в сравнении с мониторингом

Несмотря на то, что наблюдаемость и мониторинг моделей часто используются вместе, это разные концепции.

  • Мониторинг — это процесс сбора и анализа данных для наблюдения за известными режимами отказа. Вы настраиваете оповещения для определенных, предопределенных пороговых значений, таких как частота ошибок, превышающая 5%, или задержка вывода, превышающая 200 мс. Он сообщает вам, если что-то не так.
  • Наблюдаемость — это свойство системы, которое позволяет вам понять, почему что-то не так, даже если вы никогда раньше не видели эту проблему. Он использует подробные журналы, метрики и трассировки, чтобы обеспечить исследовательский анализ и выявление первопричин. Наблюдаемая система — это система, которую можно отлаживать без необходимости отправлять новый код для сбора дополнительной информации. Эта возможность имеет решающее значение для управления непредсказуемой природой систем ИИ в производстве.

Три столпа наблюдаемости

Наблюдаемость обычно строится на трех основных типах данных телеметрии:

  1. Логи: Это неизменяемые записи событий с отметками времени. В ML-системах логи могут фиксировать отдельные запросы прогнозирования, ошибки проверки данных или изменения конфигурации системы. В то время как традиционное ведение логов может быть простым текстом, структурированное ведение логов (например, в формате JSON) значительно упрощает запросы и анализ логов в масштабе.
  2. Метрики: Это числовые представления данных, измеренные с течением времени. Ключевые метрики в ML-системах включают в себя точность модели, пропускную способность прогнозирования, использование CPU/GPU и использование памяти. Базы данных временных рядов, такие как Prometheus, обычно используются для хранения и запроса этих данных.
  3. Трассировки: Трассировки предоставляют подробное представление об отдельном запросе или транзакции по мере его прохождения через все компоненты системы. В конвейере компьютерного зрения трассировка может отслеживать одно изображение от приема и предварительной обработки до вывода модели и постобработки, показывая время, затраченное на каждом этапе. Это бесценно для выявления узких мест и ошибок в распределенных системах.

Почему наблюдаемость имеет решающее значение для систем ИИ

Модели глубокого обучения могут быть очень сложными и непрозрачными, что затрудняет понимание их поведения в реальном мире. Наблюдаемость необходима для:

  • Отладка и устранение неполадок: Когда модель, такая как Ultralytics YOLO11, делает неверный прогноз, инструменты наблюдаемости могут помочь отследить входные данные и активации модели, чтобы понять причину.
  • Обнаружение дрейфа: Модели ИИ могут ухудшаться со временем из-за дрейфа данных (когда распределение производственных данных отличается от данных обучения) или дрейфа концепции. Наблюдаемость помогает обнаружить эти сдвиги, отслеживая распределение данных и производительность модели.
  • Обеспечение доверия и справедливости: В чувствительных приложениях, таких как ИИ в здравоохранении, наблюдаемость поддерживает объяснимый ИИ (XAI) и прозрачность в ИИ, предоставляя четкий контрольный журнал решений модели. Это имеет решающее значение для соблюдения нормативных требований и укрепления доверия заинтересованных сторон.
  • Оптимизация производительности: Отслеживая использование ресурсов и задержку, команды могут оптимизировать эффективность модели и снизить эксплуатационные расходы, что является ключевой целью MLOps.

Применение в реальном мире

  1. Автономные транспортные средства: Автономное транспортное средство использует модель восприятия для обнаружения объектов в реальном времени. Инструменты наблюдаемости отслеживают кадр с камеры по всей системе, от датчика до принятия решения. Если транспортное средство не обнаруживает пешехода в сумерках, инженеры могут использовать трассировки, чтобы увидеть, была ли причиной задержка на этапе предварительной обработки изображения. Они также могут анализировать метрики оценок достоверности обнаружения в разное время суток, чтобы выявить системные проблемы.
  2. Управление запасами в розничной торговле: Интеллектуальная система розничной торговли использует камеры для мониторинга запасов на полках. Платформа наблюдаемости отслеживает количество продуктов, обнаруженных на полке, частоту вызовов API и задержку прогнозов. Если система сообщает о неверном уровне запасов для определенного продукта, разработчики могут отфильтровать трассировки для SKU этого продукта, проверить зарегистрированные изображения и оценки прогнозов и определить, не являются ли причиной проблемы плохое освещение или необычная упаковка. Это позволяет быстро диагностировать и переобучить модель с использованием лучшей аугментации данных.

Инструменты и платформы

Реализация наблюдаемости часто включает в себя специализированные инструменты и платформы. Популярны решения с открытым исходным кодом, такие как Grafana (визуализация), Loki (логи) и Jaeger (трассировка). OpenTelemetry предоставляет нейтральный к поставщикам стандарт для инструментирования. Коммерческие платформы, такие как Datadog, New Relic и Dynatrace, предлагают интегрированные решения. Платформы MLOps, такие как MLflow, Weights & Biases и ClearML, часто включают функции для отслеживания экспериментов и мониторинга моделей. Ultralytics HUB облегчает управление запусками обучения и развернутыми моделями, интегрируясь с такими инструментами, как TensorBoard для визуализации метрик, что является ключевым аспектом наблюдаемости на этапе обучения модели.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас
Ссылка скопирована в буфер обмена