Glosario

Datos de prueba

Descubre la importancia de los datos de prueba en la IA, su papel en la evaluación del rendimiento de los modelos, la detección del sobreajuste y la garantía de fiabilidad en el mundo real.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

Los datos de prueba son un componente crucial en el ciclo de vida del desarrollo del Aprendizaje Automático (AM). Se refiere a un conjunto de datos independiente, separado de los conjuntos de entrenamiento y validación, que se utiliza exclusivamente para la evaluación final del rendimiento de un modelo una vez finalizadas las fases de entrenamiento y ajuste. Este conjunto de datos contiene puntos de datos que el modelo nunca ha encontrado antes, proporcionando una evaluación imparcial de lo bien que es probable que funcione el modelo con datos nuevos del mundo real. El objetivo principal del uso de datos de prueba es estimar la capacidad de generalización del modelo, es decir, su capacidad para funcionar con precisión con datos desconocidos.

Importancia de los datos de prueba

La verdadera medida del éxito de un modelo ML reside en su capacidad para manejar datos con los que no se ha entrenado explícitamente. Los datos de prueba sirven como punto de control final, ofreciendo una evaluación objetiva del rendimiento del modelo. Sin un conjunto de pruebas específico, existe un alto riesgo de sobreajuste, en el que un modelo aprende los datos de entrenamiento demasiado bien, incluyendo su ruido y patrones específicos, pero no consigue generalizar a los nuevos datos. El uso de datos de prueba ayuda a garantizar que las métricas de rendimiento notificadas reflejan las capacidades previstas del modelo en el mundo real, creando confianza antes de la implantación del modelo. Este último paso de la evaluación es fundamental para comparar diferentes modelos o enfoques de forma fiable, como comparar YOLOv8 frente a YOLOv9. Se ajusta a las mejores prácticas, como las descritas en las Reglas ML deGoogle.

Características principales

Para ser eficaces, los datos de prueba deben poseer ciertas características:

  • Representatividad: Debe reflejar con precisión las características de los datos del mundo real que el modelo encontrará tras su despliegue. Esto incluye distribuciones similares de características, clases y variaciones potenciales. Son esenciales unas buenas prácticas de recopilación y anotación de datos.
  • Independencia: Los datos de prueba deben estar estrictamente separados de los conjuntos de entrenamiento y validación. Nunca deben utilizarse para entrenar el modelo ni para ajustar sus hiperparámetros. Cualquier solapamiento o filtración puede dar lugar a estimaciones de rendimiento demasiado optimistas.
  • Tamaño suficiente: El conjunto de pruebas debe ser lo suficientemente grande como para proporcionar resultados estadísticamente significativos y estimar con fiabilidad el rendimiento del modelo.

Datos de prueba frente a datos de entrenamiento y validación

Es esencial distinguir los datos de prueba de otras divisiones de datos utilizadas en ML:

  • Datos de entrenamiento: Se trata de la mayor parte del conjunto de datos, que se utiliza directamente para entrenar el modelo. El modelo aprende patrones y relaciones a partir de estos datos mediante algoritmos como el Aprendizaje Supervisado.
  • Datos de validación: Este conjunto de datos independiente se utiliza durante la fase de entrenamiento para ajustar los hiperparámetros del modelo (como las opciones de arquitectura o los ajustes de optimización) y tomar decisiones sobre el proceso de entrenamiento (por ejemplo, la detención temprana). Proporciona información sobre el grado de generalización del modelo durante el entrenamiento, guiando la evaluación del modelo y el proceso de ajuste sin utilizar el conjunto de pruebas final.
  • Datos de prueba: Se utilizan una sola vez, una vez completados el entrenamiento y la validación, para proporcionar una evaluación final e imparcial del rendimiento del modelo en datos no vistos.

Separar adecuadamente estos conjuntos de datos mediante estrategias como la división cuidadosa de los datos es crucial para desarrollar modelos fiables y evaluar con precisión sus capacidades en el mundo real.

Ejemplos reales

  1. Conducción autónoma: Un Ultralytics YOLO El modelo entrenado para la detección de objetos en coches autoconducidos se evaluaría en un conjunto de pruebas que contenga diversos escenarios de conducción no vistos previamente (por ejemplo, conducción nocturna, lluvia intensa, intersecciones desconocidas). Así se garantiza que el modelo detecte con fiabilidad a peatones, ciclistas y otros vehículos(la tecnología de Waymo se basa en gran medida en este tipo de pruebas) antes de implantarlo en vehículos reales.
  2. Diagnóstico médico: En el análisis de imágenes médicas, un modelo entrenado para detectar tumores utilizando datos como el Conjunto de datos de detección de tumores cerebrales debe evaluarse en un conjunto de pruebas de exploraciones de distintos hospitales, máquinas y poblaciones de pacientes que no formaron parte del entrenamiento ni de la validación. Esto confirma la precisión diagnóstica y la solidez del modelo en entornos clínicos reales.

Evaluación y gestión

El rendimiento en el conjunto de pruebas suele medirse utilizando métricas relevantes para la tarea, como la precisión, la precisión media media (mAP) u otras detalladas en guías como la documentación sobre métricas de rendimientoYOLO . A menudo, los modelos se evalúan frente a conjuntos de datos de referencia establecidos, como COCO, para garantizar comparaciones justas y promover la reproducibilidad. La gestión de estos distintos conjuntos de datos a lo largo del ciclo de vida del proyecto se ve facilitada por plataformas como Ultralytics HUB, que ayuda a organizar las divisiones de datos y a realizar un seguimiento eficaz de los experimentos.

Leer todo