Datos de prueba
Descubra la importancia de los datos de prueba en la IA, su papel en la evaluación del rendimiento del modelo, la detección del sobreajuste y la garantía de la fiabilidad en el mundo real.
En el aprendizaje automático, los datos de prueba son una porción separada e independiente de un conjunto de datos que se utiliza para la evaluación final de un modelo una vez que se ha entrenado y ajustado por completo.
evaluación final de un modelo una vez que se ha entrenado y ajustado por completo. Este conjunto de datos actúa como un "examen final" para el modelo.
del modelo, proporcionando una evaluación imparcial de su rendimiento con datos nuevos y desconocidos. El principio básico es que el modelo
nunca debe aprender de los datos de prueba ni verse influido por ellos durante su desarrollo. Esta estricta separación garantiza que
las métricas de rendimiento calculadas en el conjunto de pruebas, como la
precisión o
precisión media (mAP), son un fiel reflejo de la
de la capacidad del modelo para
generalizar en escenarios reales. Una prueba rigurosa del modelo
pruebas rigurosas de los modelos es un paso
la implantación del modelo.
El papel de los datos de prueba en el ciclo de vida del ML
En un proyecto típico de aprendizaje automático (Machine Learning, ML),
los datos se dividen cuidadosamente para servir a diferentes propósitos. Comprender la distinción entre estas particiones es
fundamental para construir modelos fiables.
-
Datos de entrenamiento: Es el subconjunto
subconjunto de los datos, utilizados para enseñar el modelo. El modelo aprende iterativamente patrones, características y relaciones mediante
ajustando los pesos internos del modelo basándose en los
los ejemplos del conjunto de entrenamiento. La creación de un modelo eficaz depende de datos de entrenamiento de alta calidad y de seguir las mejores prácticas, como las que se describen en este manual.
prácticas como las de esta
guía de consejos para el entrenamiento de modelos.
-
Datos de validación: Se trata de
Se trata de un conjunto de datos independiente que se utiliza durante el proceso de entrenamiento. Su objetivo es proporcionar información sobre el
rendimiento del modelo en datos no vistos, lo que ayuda a
ajuste de hiperparámetros (por ejemplo, ajustar la
de aprendizaje) y evitar el
el sobreajuste. Es como una prueba práctica que ayuda a
guiar la estrategia de aprendizaje. La evaluación suele realizarse utilizando un
modo de validación.
-
Datos de prueba: Este conjunto de datos se mantiene completamente aislado hasta que finalizan el entrenamiento y la validación.
Se utiliza una sola vez para obtener un informe final imparcial sobre el rendimiento del modelo. El uso de los datos de prueba para
de prueba para realizar ajustes en el modelo invalidaría los resultados.
" fuga de datos" o "enseñar a
la prueba". Esta evaluación final es esencial para comprender cómo un modelo, como un
Ultralytics YOLO11 después de su implantación.
Después de la formación, puede utilizar el val en su división de prueba para generar métricas de rendimiento finales.
from ultralytics import YOLO
# Load a trained YOLO11 model
model = YOLO("yolo11n.pt")
# Evaluate the model's performance on the COCO8 test set.
# This command runs a final, unbiased evaluation on the 'test' split.
metrics = model.val(data="coco8.yaml", split="test")
print(metrics.box.map) # Print mAP score
Aunque un conjunto de datos de referencia puede servir como conjunto de pruebas
de prueba, su función principal es servir de estándar público para comparar distintos modelos, a menudo utilizado en retos académicos
como el
ImageNet Large Scale Visual Recognition Challenge (ILSVRC). En
puede ver ejemplos de ello en las páginas de comparación de modelos.
Aplicaciones en el mundo real
-
La IA en la automoción: Un desarrollador crea un
modelo de detección de objetos
vehículo autónomo con miles de horas
horas de conducción para el entrenamiento y la validación. Antes de desplegar este modelo en una flota, se evalúa con un conjunto de datos de prueba.
conjunto de datos de prueba. Este conjunto de datos de prueba incluiría escenarios desafiantes y nunca vistos anteriormente, como la conducción nocturna bajo una intensa lluvia, la navegación a través de una tormenta de nieve, etc.
lluvia, atravesar una tormenta de nieve o detectar peatones parcialmente ocultos por otros objetos. El rendimiento del modelo
El rendimiento del modelo en este conjunto de pruebas, a menudo con datos de puntos de referencia como
nuScenes, determina si cumple las estrictas normas de
normas de seguridad y fiabilidad exigidas para la
la IA en aplicaciones de automoción.
-
Análisis de imágenes médicas: A
modelo de visión por ordenador (CV) para
detect signos de neumonía en las radiografías de tórax de un hospital. Para garantizar su utilidad clínica, el
modelo debe probarse en un conjunto de datos de imágenes de un sistema hospitalario diferente. Estos datos de prueba incluirían imágenes
capturadas con equipos diferentes, procedentes de una población de pacientes diversa e interpretadas por radiólogos distintos.
Evaluar el rendimiento del modelo en este conjunto de pruebas externo es crucial para obtener la aprobación reglamentaria, por ejemplo
de la
FDA, y confirmar su utilidad para la
la IA en la asistencia sanitaria. Este proceso ayuda a garantizar que el
Este proceso ayuda a garantizar que el modelo evite el sesgo del conjunto de datos y funcione de forma fiable en nuevos entornos clínicos.
nuevos entornos clínicos. Puede encontrar conjuntos de datos públicos sobre imágenes médicas en recursos como
The Cancer Imaging Archive (TCIA).
Buenas prácticas para la gestión de datos de prueba
Para garantizar la integridad de su evaluación, tenga en cuenta estas buenas prácticas:
-
Muestreo aleatorio: Al crear sus divisiones de datos, asegúrese de que el conjunto de prueba es una muestra
representativa del espacio global del problema. Herramientas como
train_test_split de scikit-learn
de scikit-learn pueden ayudar a automatizar esta partición aleatoria.
-
Evitar la fuga de datos: Asegúrese de que no existe solapamiento entre los conjuntos de entrenamiento y prueba. Incluso una fuga sutil,
como tener fotogramas del mismo videoclip en ambos conjuntos, puede inflar artificialmente las puntuaciones de rendimiento.
-
Distribución representativa: Para tareas como
clasificación, compruebe que la distribución de clases en el
conjunto de pruebas refleja la distribución que se espera encontrar en el mundo real.
-
Métricas de evaluación: Elija métricas que se alineen con sus objetivos empresariales. Por ejemplo, en una aplicación
de seguridad, una alta recuperación puede ser más
precisión para garantizar que no se pasa por alto ninguna amenaza.
Si se adhiere estrictamente a estos principios, podrá utilizar con confianza los datos de prueba para certificar que sus modelos de
Ultralytics están listos para los entornos de producción.