Глоссарий

Наблюдаемость

Узнайте, как наблюдаемость улучшает системы AI/ML, такие как Ultralytics YOLO. Получите информацию, оптимизируйте производительность и обеспечьте надежность в реальных приложениях.

Наблюдаемость - это практика проектирования и инструментария систем для получения точных данных об их внутреннем состоянии, что позволяет командам эффективно исследовать, отлаживать и понимать их поведение. В контексте искусственного интеллекта (ИИ) и машинного обучения (МЛ) она выходит за рамки простого мониторинга и позволяет глубоко изучить сложные модели и конвейеры данных. Вместо того чтобы просто отслеживать заранее заданные показатели производительности, наблюдаемая система предоставляет богатые данные, которые позволяют задавать новые вопросы и диагностировать неизвестные проблемы после развертывания модели.

Наблюдаемость и мониторинг

Хотя их часто используют вместе, наблюдаемость и мониторинг модели - это разные понятия.

  • Мониторинг - это процесс сбора и анализа данных для отслеживания известных режимов отказа. Вы устанавливаете предупреждения для определенных, заранее заданных пороговых значений, таких как уровень ошибок, превышающий 5 %, или задержка вывода, превышающая 200 мс. Это позволит вам узнать , что что-то не так.
  • Наблюдаемость - это свойство системы, позволяющее понять , почему что-то не так, даже если вы никогда раньше не сталкивались с этой проблемой. Для этого используются подробные журналы, метрики и трассировки, позволяющие проводить исследовательский анализ и выявлять первопричины. Наблюдаемая система - это система, которую можно отладить, не прибегая к поставке нового кода для сбора дополнительной информации. Эта возможность очень важна для управления непредсказуемым характером систем искусственного интеллекта в производстве.

Три столпа наблюдаемости

Наблюдаемость обычно строится на трех основных типах телеметрических данных:

  1. Журналы: Это неизменяемые записи событий с временными метками. В системах ML журналы могут фиксировать отдельные запросы на предсказание, ошибки проверки данных или изменения конфигурации системы. В то время как традиционные журналы могут представлять собой простой текст, структурированные журналы (например, в формате JSON ) значительно упрощают запросы и анализ в масштабе.
  2. Метрики: Это числовые представления данных, измеренные во времени. Ключевые метрики в системах ML включают точность модели, пропускную способность предсказания, загрузку CPU/GPU и использование памяти. Для хранения и запроса этих данных обычно используются базы данных временных рядов, такие как Prometheus.
  3. Трассы: Трассировка позволяет получить подробное представление об одном запросе или транзакции, проходящей через все компоненты системы. В конвейере компьютерного зрения трассировка может проследить путь одного изображения от получения и предварительной обработки до вывода модели и последующей обработки, показывая время, затраченное на каждый шаг. Это неоценимо для выявления узких мест и ошибок в распределенных системах.

Почему наблюдаемость имеет решающее значение для систем искусственного интеллекта

Модели глубокого обучения могут быть очень сложными и непрозрачными, что затрудняет понимание их поведения в реальном мире. Наблюдаемость важна для:

  • Отладка и устранение неполадок: Когда модель, подобная Ultralytics YOLO11, делает неверный прогноз, инструменты наблюдаемости помогут отследить входные данные и активации модели, чтобы понять причину.
  • Обнаружение дрейфа: Модели ИИ могут деградировать со временем из-за дрейфа данных (когда распределение производственных данных меняется по сравнению с обучающими данными) или дрейфа концепций. Observability помогает обнаружить эти сдвиги, отслеживая распределение данных и производительность модели.
  • Обеспечение доверия и справедливости: В таких ответственных приложениях, как ИИ в здравоохранении, наблюдаемость поддерживает объяснимый ИИ (XAI) и прозрачность ИИ, обеспечивая четкий аудиторский след решений модели. Это очень важно для соблюдения нормативных требований и укрепления доверия с заинтересованными сторонами.
  • Оптимизация производительности: Отслеживая использование ресурсов и задержки, команды могут оптимизировать эффективность модели и снизить операционные расходы, что является ключевой целью MLOps.

Применение в реальном мире

  1. Автономные транспортные средства: Автономный автомобиль использует модель восприятия для обнаружения объектов в реальном времени. Инструментарий Observability отслеживает кадр камеры по всей системе, от датчика до принятия решения. Если автомобиль не смог обнаружить пешехода в сумерках, инженеры могут использовать трассировку, чтобы выяснить, не является ли причиной задержка на этапе предварительной обработки изображения. Они также могут проанализировать показатели достоверности обнаружения в разное время суток, чтобы выявить системные проблемы.
  2. Управление запасами в розничной торговле: Интеллектуальная система розничной торговли использует камеры для мониторинга запасов на полках. Платформа наблюдаемости отслеживает количество обнаруженных товаров на полке, частоту вызовов API и задержку предсказаний. Если система сообщает о неправильном уровне запасов для определенного товара, разработчики могут отфильтровать трассировки для SKU этого товара, просмотреть зарегистрированные изображения и оценки предсказаний и определить, является ли причиной проблемы плохое освещение или необычная упаковка. Это позволяет быстро диагностировать и переобучать систему с помощью более качественного дополнения данных.

Инструменты и платформы

Для реализации наблюдаемости часто используются специализированные инструменты и платформы. Популярны такие решения с открытым исходным кодом, как Grafana (визуализация), Loki (журналы) и Jaeger (трассировка). OpenTelemetry обеспечивает нейтральный стандарт для инструментария. Такие коммерческие платформы, как Datadog, New Relic и Dynatrace, предлагают интегрированные решения. Платформы MLOps, такие как MLflow, Weights & Biases и ClearML, часто включают функции для отслеживания экспериментов и мониторинга моделей. Ultralytics HUB облегчает управление тренировочными прогонами и развернутыми моделями, интегрируясь с такими инструментами, как TensorBoard, для визуализации метрик, что является ключевым аспектом наблюдаемости на этапе обучения модели.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена