Glosario

Datos de la prueba

Descubra la importancia de los datos de prueba en la IA, su papel a la hora de evaluar el rendimiento de los modelos, detectar el sobreajuste y garantizar la fiabilidad en el mundo real.

En el aprendizaje automático, los datos de prueba son una parte separada e independiente de un conjunto de datos que se utiliza para la evaluación final de un modelo una vez que se ha entrenado y ajustado por completo. Este conjunto de datos actúa como un "examen final" para el modelo, proporcionando una evaluación imparcial de su rendimiento en nuevos datos no vistos. El principio básico es que el modelo nunca debe aprender de los datos de prueba ni verse influido por ellos durante su desarrollo. Esta estricta separación garantiza que las métricas de rendimiento calculadas en el conjunto de pruebas, como la precisión o la precisión media media (mAP), sean un fiel reflejo de la capacidad del modelo para generalizarse a escenarios del mundo real. La comprobación rigurosa de los modelos es un paso fundamental antes de su despliegue.

El papel de los datos de prueba en el ciclo de vida del ML

En un proyecto típico de aprendizaje automático (Machine Learning, ML), los datos se particionan cuidadosamente para servir a diferentes propósitos. Entender la distinción entre estas particiones es fundamental.

  • Datos de entrenamiento: Se trata del mayor subconjunto de datos, utilizado para enseñar el modelo. El modelo aprende iterativamente patrones, características y relaciones ajustando sus pesos internos en función de los ejemplos del conjunto de entrenamiento. La creación eficaz de un modelo se basa en datos de entrenamiento de alta calidad y en seguir las mejores prácticas, como las de esta guía de consejos para el entrenamiento de modelos.
  • Datos de validación: Se trata de un conjunto de datos independiente que se utiliza durante el proceso de entrenamiento. Su propósito es proporcionar información sobre el rendimiento del modelo en datos no vistos, lo que ayuda en el ajuste de hiperparámetros (por ejemplo, el ajuste de la tasa de aprendizaje) y la prevención de sobreajuste. Es como una prueba práctica que ayuda a guiar la estrategia de aprendizaje. La evaluación suele realizarse utilizando un modo de validación específico.
  • Datos de prueba: Este conjunto de datos se mantiene completamente aislado hasta que finalizan el entrenamiento y la validación. Sólo se utiliza una vez para obtener un informe final e imparcial sobre el rendimiento del modelo. Utilizar los datos de prueba para realizar nuevos ajustes en el modelo invalidaría los resultados, un error que a veces se denomina "fuga de datos" o "enseñar a la prueba". Esta evaluación final es esencial para comprender cómo funcionará un modelo, como el modelo YOLO de Ultralytics, después de su despliegue. Herramientas como Ultralytics HUB pueden ayudar a gestionar estos conjuntos de datos a lo largo del ciclo de vida del proyecto.

Aunque un conjunto de datos de referencia puede servir como conjunto de pruebas, su función principal es actuar como estándar público para comparar diferentes modelos, a menudo utilizado en desafíos académicos como el ImageNet Large Scale Visual Recognition Challenge (ILSVRC). Puede ver ejemplos de ello en las páginas de comparación de modelos.

Aplicaciones reales

  1. La IA en la automoción: Un desarrollador crea un modelo de detección de objetos para un vehículo autónomo utilizando miles de horas de imágenes de conducción para el entrenamiento y la validación. Antes de implantar este modelo en una flota, se evalúa con un conjunto de datos de prueba. Este conjunto de datos de prueba incluiría situaciones difíciles y nunca vistas anteriormente, como la conducción nocturna bajo una intensa lluvia, la navegación a través de una tormenta de nieve o la detección de peatones parcialmente ocultos por otros objetos. El rendimiento del modelo en este conjunto de pruebas, a menudo utilizando datos de pruebas comparativas como nuScenes, determina si cumple las estrictas normas de seguridad y fiabilidad exigidas para la IA en aplicaciones de automoción.
  2. Análisis de imágenes médicas: Se entrena un modelo de visión por ordenador (CV) para detectar signos de neumonía a partir de imágenes de rayos X de tórax procedentes de un hospital. Para garantizar su utilidad clínica, el modelo debe probarse en un conjunto de datos de imágenes procedentes de un sistema hospitalario distinto. Estos datos de prueba incluirían imágenes capturadas con equipos diferentes, de una población de pacientes diversa e interpretadas por radiólogos distintos. Evaluar el rendimiento del modelo en este conjunto de pruebas externo es crucial para obtener la aprobación reglamentaria, como la de la FDA, y confirmar su utilidad para la IA en la atención sanitaria. Este proceso ayuda a garantizar que el modelo evite los sesgos del conjunto de datos y funcione de forma fiable en nuevos entornos clínicos.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles