Glosario

Observabilidad

Descubra cómo la observabilidad mejora los sistemas AI/ML como Ultralytics YOLO. Obtenga información, optimice el rendimiento y garantice la fiabilidad en aplicaciones del mundo real.

La observabilidad es la práctica de diseñar e instrumentar sistemas para proporcionar datos de alta fidelidad sobre su estado interno, lo que permite a los equipos explorar, depurar y comprender eficazmente su comportamiento. En el contexto de la Inteligencia Artificial (IA) y el Aprendizaje Automático (AM), va más allá de la simple monitorización para permitir una visión profunda de modelos complejos y canalizaciones de datos. En lugar de limitarse a realizar un seguimiento de las métricas de rendimiento predefinidas, un sistema observable proporciona datos ricos y explorables que permiten formular nuevas preguntas y diagnosticar problemas desconocidos después de la implementación del modelo.

Observabilidad frente a control

Aunque a menudo se utilizan juntos, la observabilidad y la supervisión de modelos son conceptos distintos.

  • La supervisión es el proceso de recogida y análisis de datos para vigilar los modos de fallo conocidos. Se configuran alertas para umbrales específicos y predefinidos, como una tasa de error superior al 5% o una latencia de inferencia superior a 200ms. Le indica si algo va mal.
  • La observabilidad es una propiedad del sistema que permite entender por qué algo va mal, aunque nunca se haya visto el problema antes. Utiliza registros detallados, métricas y trazas para permitir el análisis exploratorio y la identificación de la causa raíz. Un sistema observable es aquel que se puede depurar sin tener que enviar nuevo código para recopilar más información. Esta capacidad es fundamental para gestionar la naturaleza impredecible de los sistemas de IA en producción.

Los tres pilares de la observabilidad

La observabilidad suele basarse en tres tipos fundamentales de datos telemétricos:

  1. Registros: Son registros de eventos inmutables y con fecha y hora. En los sistemas de ML, los registros pueden capturar solicitudes de predicción individuales, errores de validación de datos o cambios en la configuración del sistema. Mientras que el registro tradicional puede ser de texto simple, el registro estructurado (por ejemplo, en formato JSON ) hace que los registros sean mucho más fáciles de consultar y analizar a escala.
  2. Métricas: Son representaciones numéricas de datos medidos a lo largo del tiempo. Las métricas clave en los sistemas de ML incluyen la precisión del modelo, el rendimiento de la predicción, la utilización de laCPU/GPU y el uso de la memoria. Las bases de datos de series temporales como Prometheus se utilizan habitualmente para almacenar y consultar estos datos.
  3. Rastreos: Las trazas ofrecen una visión detallada de una única solicitud o transacción a medida que se desplaza por todos los componentes de un sistema. En un proceso de visión por ordenador, una traza podría seguir una sola imagen desde la ingesta y el preprocesamiento hasta la inferencia del modelo y el postprocesamiento, mostrando el tiempo empleado en cada paso. Esto tiene un valor incalculable para detectar cuellos de botella y errores en sistemas distribuidos.

Por qué la observabilidad es crucial para los sistemas de IA

Los modelos de aprendizaje profundo pueden ser muy complejos y opacos, lo que dificulta la comprensión de su comportamiento en el mundo real. La observabilidad es esencial para:

  • Depuración y resolución de problemas: Cuando un modelo como Ultralytics YOLO11 realiza una predicción incorrecta, las herramientas de observabilidad pueden ayudar a rastrear los datos de entrada y las activaciones del modelo para comprender la causa.
  • Detección de la deriva: Los modelos de IA pueden degradarse con el tiempo debido a la deriva de los datos (cuando la distribución de los datos de producción cambia con respecto a los datos de entrenamiento) o a la deriva de los conceptos. La capacidad de observación ayuda a detectar estos cambios supervisando la distribución de los datos y el rendimiento del modelo.
  • Garantizar la confianza y la equidad: En aplicaciones sensibles como la IA en la sanidad, la observabilidad favorece la IA explicable (XAI) y la transparencia en la IA al proporcionar una pista de auditoría clara de las decisiones del modelo. Esto es crucial para el cumplimiento de la normativa y la creación de confianza con las partes interesadas.
  • Optimización del rendimiento: Mediante el seguimiento del uso de recursos y la latencia, los equipos pueden optimizar la eficiencia del modelo y reducir los costes operativos, que es un objetivo clave de MLOps.

Aplicaciones reales

  1. Vehículos autónomos: Un vehículo autónomo utiliza un modelo de percepción para la detección de objetos en tiempo real. Las herramientas de observabilidad rastrean un fotograma de cámara a través de todo el sistema, desde el sensor hasta la toma de decisiones. Si el vehículo no detecta a un peatón al anochecer, los ingenieros pueden utilizar las trazas para ver si la causa fue la latencia en el paso de preprocesamiento de la imagen. También pueden analizar las puntuaciones de confianza en la detección a distintas horas del día para identificar problemas sistémicos.
  2. Gestión del inventario minorista: Un sistema minorista inteligente utiliza cámaras para controlar las existencias en las estanterías. Una plataforma de observabilidad realiza un seguimiento del número de productos detectados por estantería, la frecuencia de las llamadas a la API y la latencia de las predicciones. Si el sistema informa de niveles de existencias incorrectos para un producto concreto, los desarrolladores pueden filtrar las trazas para la SKU de ese producto, inspeccionar las imágenes registradas y las puntuaciones de las predicciones, y determinar si la causa del problema es una iluminación deficiente o un embalaje inusual. Esto permite un diagnóstico rápido y un reentrenamiento con un mejor aumento de los datos.

Herramientas y plataformas

La implementación de la observabilidad a menudo implica herramientas y plataformas especializadas. Las soluciones de código abierto como Grafana (visualización), Loki (registros) y Jaeger (seguimiento) son muy populares. OpenTelemetry proporciona un estándar neutral para la instrumentación. Plataformas comerciales como Datadog, New Relic y Dynatrace ofrecen soluciones integradas. Las plataformas MLOps como MLflow, Weights & Biases y ClearML suelen incluir funciones para el seguimiento de experimentos y la supervisión de modelos. Ultralytics HUB facilita la gestión de las ejecuciones de formación y los modelos desplegados, integrándose con herramientas como TensorBoard para la visualización de métricas, que es un aspecto clave de la observabilidad durante la fase de formación del modelo.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles