Deriva de Datos
Descubra los tipos, causas y soluciones de la desviación de datos en el aprendizaje automático. Aprenda a detect y mitigar la desviación de datos para obtener modelos de IA sólidos.
La deriva de datos es un fenómeno
aprendizaje automático (AM) en el que las propiedades
de los datos de entrada observados en un entorno de producción cambian con el tiempo en comparación con los datos de entrenamiento utilizados originalmente para construir el modelo.
datos de entrenamiento utilizados originalmente para construir el modelo.
Cuando se despliega un modelo, se basa en la suposición de que los datos futuros se parecerán a los datos históricos de los que aprendió.
aprendidos. Si esta suposición se incumple debido a cambios en las condiciones del mundo real, la precisión y fiabilidad del modelo pueden degradarse significativamente, lo que puede afectar a la precisión y fiabilidad del modelo.
y fiabilidad del modelo pueden degradarse significativamente
aunque el propio modelo permanezca inalterado. Detectar y gestionar la desviación de los datos es un aspecto fundamental de las operaciones de aprendizaje automático.
Operaciones de Aprendizaje Automático (MLOps), asegurando que los sistemas continúen funcionando de forma óptima después del despliegue del modelo.
el despliegue del modelo.
Deriva de datos vs. Deriva de concepto
Para mantener con eficacia los sistemas de IA, es crucial distinguir la deriva de datos de un término estrechamente relacionado, la deriva de conceptos.
concepto. Aunque ambos provocan un deterioro del rendimiento, su origen es distinto.
-
Deriva de datos (desplazamiento de covariables): Se produce cuando cambia la distribución de las características de entrada, pero
la relación fundamental entre las entradas y la salida objetivo sigue siendo la misma. Por ejemplo, en
visión por ordenador (CV), un modelo puede entrenarse
con imágenes tomadas a la luz del día. Si la cámara de producción empieza a enviar imágenes nocturnas, la distribución de las entradas ha
aunque los objetos detectados no hayan cambiado de definición.
-
Deriva conceptual: Se produce cuando cambia la definición de la propia variable objetivo. La relación
relación entre entradas y salidas se altera. Por ejemplo, en un
sistema de detección de fraudes financieros,
los métodos utilizados por los defraudadores evolucionan con el tiempo. Lo que ayer se consideraba una transacción segura, hoy puede ser un patrón de fraude.
fraude. Puede leer más sobre
la deriva conceptual en la investigación académica.
Aplicaciones y ejemplos del mundo real
La deriva de datos afecta a una amplia gama de industrias en las que
Inteligencia Artificial (IA) se aplica
a entornos dinámicos.
-
Fabricación automatizada: En un
fabricación, un modelo de
modelo de detección de objetos para identificar
defectos en una cadena de montaje. Si la fábrica instala una nueva iluminación LED que cambia la temperatura de color de las imágenes capturadas, la distribución de los datos de entrada cambia.
imágenes capturadas, la distribución de los datos de entrada cambia. El modelo, entrenado en imágenes con iluminación más antigua, puede
de los datos y no identificar correctamente los defectos, lo que requiere un
mantenimiento del modelo.
-
Conducción autónoma:
Los vehículos autónomos dependen en gran medida de
modelos de percepción entrenados en amplios conjuntos de datos. Si un coche entrenado principalmente en carreteras soleadas de California se despliega en una región nevada, los datos visuales (entradas) diferirán drásticamente del conjunto de entrenamiento.
región nevada, los datos visuales (entradas) diferirán drásticamente del conjunto de entrenamiento. Esto supone una
de datos, lo que puede comprometer funciones de seguridad como la
como la detección de carriles. Empresas como Waymo supervisan continuamente estos cambios para garantizar la seguridad del vehículo.
del vehículo.
Detección y mitigación de la deriva
La detección precoz de la desviación de los datos evita el "fallo silencioso", que consiste en que un modelo realiza predicciones seguras pero incorrectas.
pero incorrectas.
Estrategias de detección
-
Pruebas estadísticas: Los técnicos suelen utilizar métodos estadísticos para comparar la distribución de los nuevos
datos con la línea base de entrenamiento. La prueba
prueba de Kolmogorov-Smirnov
es una popular prueba no paramétrica utilizada para determinar si dos conjuntos de datos difieren significativamente.
-
Supervisión del rendimiento: Seguimiento de métricas como
precisión
recuperación y
F1 en tiempo real puede indicar una desviación. Si estas métricas
inesperadamente, suele indicar que los datos entrantes ya no coinciden con los patrones aprendidos del modelo.
-
Herramientas de visualización: Plataformas como
TensorBoard permiten a los equipos visualizar
y curvas de pérdidas para detectar anomalías. Para una supervisión más exhaustiva, herramientas
herramientas de observabilidad como
como Prometheus y Grafana son ampliamente
el sector.
Técnicas de mitigación
-
Reentrenamiento: La solución más directa es volver a entrenar el modelo utilizando un nuevo conjunto de datos que incluya datos recientes y desviados.
conjunto de datos que incluya los datos recientes desviados. Esto actualiza
los límites internos del modelo para reflejar la realidad actual.
-
Aumento de datos: Durante la fase de formación inicial, la aplicación de
técnicas de aumento de datos (como rotación
(como la rotación, la fluctuación del color y el ruido) puede hacer que el modelo sea más resistente a pequeñas desviaciones, como cambios de iluminación o movimientos de la cámara.
de la cámara.
-
Adaptación al dominio: Se trata de técnicas diseñadas para adaptar un modelo entrenado en un dominio de origen para que funcione bien en un dominio de destino con una distribución diferente.
para que funcione bien en un dominio de destino con una distribución diferente. Se trata de un área activa de
investigación sobre aprendizaje por transferencia.
Utilización de la ultralytics puede controlar fácilmente las puntuaciones de confianza durante la inferencia. Una caída
Una caída repentina o gradual de la confianza media de una clase conocida puede ser un indicador importante de la desviación de los datos.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Run inference on a new image from the production stream
results = model("path/to/production_image.jpg")
# Inspect confidence scores; consistently low scores may indicate drift
for result in results:
for box in result.boxes:
print(f"Class: {box.cls}, Confidence: {box.conf.item():.2f}")
Importancia en el ciclo de vida de la IA
Abordar la desviación de datos no es una solución puntual, sino un proceso continuo. Garantiza que los modelos construidos con marcos
como PyTorch o
TensorFlow siguen siendo activos valiosos en lugar de
pasivos. Los proveedores de la nube ofrecen servicios administrados para automatizar esto, como
AWS SageMaker Model Monitor y
Google Cloud Vertex AI, que pueden
alertar a los ingenieros cuando se superan los umbrales de desviación. Mediante la gestión proactiva de la deriva de datos, las organizaciones pueden mantener
altos estándares de seguridad y eficiencia operativa de la IA.