Glosario

Datos de la prueba

Descubra la importancia de los datos de prueba en la IA, su papel a la hora de evaluar el rendimiento de los modelos, detectar el sobreajuste y garantizar la fiabilidad en el mundo real.

Los datos de prueba son un componente crucial en el ciclo de desarrollo del aprendizaje automático (Machine Learning, ML). Se trata de un conjunto de datos independiente, distinto de los conjuntos de entrenamiento y validación, que se utiliza exclusivamente para la evaluación final del rendimiento de un modelo una vez finalizadas las fases de entrenamiento y ajuste. Este conjunto de datos contiene puntos de datos que el modelo nunca ha encontrado antes, proporcionando una evaluación imparcial de lo bien que el modelo es probable que funcione en los nuevos datos del mundo real. El objetivo principal del uso de datos de prueba es estimar la capacidad de generalización del modelo, es decir, su capacidad para funcionar con precisión con datos desconocidos.

Importancia de los datos de prueba

La verdadera medida del éxito de un modelo ML reside en su capacidad para manejar datos con los que no se ha entrenado explícitamente. Los datos de prueba sirven como punto de control final, ofreciendo una evaluación objetiva del rendimiento del modelo. Sin un conjunto de pruebas específico, existe un alto riesgo de sobreajuste, en el que un modelo aprende los datos de entrenamiento demasiado bien, incluyendo su ruido y patrones específicos, pero no consigue generalizar a los nuevos datos. El uso de datos de prueba ayuda a garantizar que las métricas de rendimiento notificadas reflejan las capacidades previstas del modelo en el mundo real, generando confianza antes de la implantación del modelo. Este último paso de la evaluación es fundamental para comparar diferentes modelos o enfoques de forma fiable, como la comparación entre YOLOv8 y YOLOv9. Se ajusta a las mejores prácticas, como las descritas en las Reglas ML de Google.

Características principales

Para ser eficaces, los datos de las pruebas deben poseer ciertas características:

  • Representatividad: Debe reflejar con exactitud las características de los datos del mundo real que el modelo encontrará tras su implantación. Esto incluye distribuciones similares de características, clases y variaciones potenciales. Las buenas prácticas de recopilación y anotación de datos son esenciales.
  • Independencia: Los datos de prueba deben estar estrictamente separados de los conjuntos de entrenamiento y validación. Nunca deben utilizarse para entrenar el modelo o ajustar sus hiperparámetros. Cualquier solapamiento o filtración puede dar lugar a estimaciones de rendimiento demasiado optimistas.
  • Tamaño suficiente: El conjunto de pruebas debe ser lo suficientemente grande como para proporcionar resultados estadísticamente significativos y estimar de forma fiable el rendimiento del modelo.

Datos de prueba frente a datos de entrenamiento y validación

Es esencial distinguir los datos de prueba de otras divisiones de datos utilizadas en ML:

  • Datos de entrenamiento: Se trata de la mayor parte del conjunto de datos, que se utiliza directamente para entrenar el modelo. El modelo aprende patrones y relaciones a partir de estos datos mediante algoritmos como el aprendizaje supervisado.
  • Datos de validación: Este conjunto de datos independiente se utiliza durante la fase de entrenamiento para ajustar los hiperparámetros del modelo (como las opciones de arquitectura o los ajustes de optimización) y tomar decisiones sobre el proceso de entrenamiento (por ejemplo, la detención temprana). Proporciona información sobre el grado de generalización del modelo durante el entrenamiento, guiando la evaluación del modelo y el proceso de ajuste sin utilizar el conjunto de pruebas final.
  • Datos de prueba: Se utilizan una sola vez una vez completados el entrenamiento y la validación para proporcionar una evaluación final e imparcial del rendimiento del modelo en datos no vistos.

Separar adecuadamente estos conjuntos de datos mediante estrategias como la división cuidadosa de los datos es crucial para desarrollar modelos fiables y evaluar con precisión sus capacidades en el mundo real.

Ejemplos reales

  1. Conducción autónoma: Un modelo YOLO de Ultralytics entrenado para la detección de objetos en coches de conducción autónoma se evaluaría en un conjunto de pruebas que contenga diversos escenarios de conducción nunca vistos (por ejemplo, conducción nocturna, lluvia intensa, intersecciones desconocidas). De este modo se garantiza que el modelo detecte con fiabilidad a peatones, ciclistas y otros vehículos(la tecnología de Waymo se basa en gran medida en este tipo de pruebas) antes de implantarlo en vehículos reales.
  2. Diagnóstico médico: en el análisis de imágenes médicas, un modelo entrenado para detectar tumores utilizando datos como el conjunto de datos de detección de tumores cerebrales debe evaluarse en un conjunto de pruebas de escáneres de diferentes hospitales, máquinas y poblaciones de pacientes que no formaron parte del entrenamiento o la validación. Esto confirma la precisión diagnóstica y la solidez del modelo en entornos clínicos reales.

Evaluación y gestión

El rendimiento en el conjunto de pruebas suele medirse utilizando métricas relevantes para la tarea, como la precisión, la precisión media media (mAP) u otras detalladas en guías como la documentación sobre métricas de rendimiento de YOLO. A menudo, los modelos se evalúan comparándolos con conjuntos de datos de referencia establecidos, como COCO, para garantizar comparaciones justas y promover la reproducibilidad. La gestión de estos distintos conjuntos de datos a lo largo del ciclo de vida del proyecto se ve facilitada por plataformas como Ultralytics HUB, que ayuda a organizar las divisiones de datos y a realizar un seguimiento eficaz de los experimentos.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles