Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Datos de prueba

Explora el papel fundamental que desempeñan los datos de prueba en el aprendizaje automático. Aprende a evaluar el rendimiento Ultralytics utilizando conjuntos de datos imparciales para garantizar la precisión en el mundo real.

Los datos de prueba son un subconjunto específico de un conjunto de datos más amplio que se reserva estrictamente para evaluar el rendimiento final de un modelo de aprendizaje automático (ML). A diferencia de los datos utilizados durante las fases de aprendizaje anteriores, los datos de prueba permanecen completamente «ocultos» para el algoritmo hasta el final del ciclo de desarrollo. Este aislamiento es fundamental porque proporciona una evaluación imparcial de la capacidad de un modelo de visión artificial (CV) u otro sistema de IA para generalizar a nuevas entradas del mundo real. Al simular un entorno de producción, los datos de prueba ayudan a los desarrolladores a verificar que su modelo ha aprendido realmente los patrones subyacentes en lugar de limitarse a memorizar los ejemplos de entrenamiento .

El papel de los datos de prueba en el ciclo de vida del ML

En el flujo de trabajo estándar del aprendizaje automático, los datos se dividen normalmente en tres categorías distintas, cada una de las cuales tiene un propósito único. Comprender la distinción entre estas divisiones es vital para construir sistemas robustos de inteligencia artificial (IA).

  • Datos de entrenamiento: esta es la mayor parte del conjunto de datos, utilizada para enseñar al modelo. El algoritmo ajusta iterativamente sus parámetros internos, o pesos, para minimizar los errores en este conjunto específico de ejemplos.
  • Datos de validación: este subconjunto se utiliza con frecuencia durante el proceso de entrenamiento para ajustar los hiperparámetros y orientar las decisiones sobre la arquitectura . Actúa como una comprobación provisional para evitar el sobreajuste, que se produce cuando un modelo funciona bien con los datos de entrenamiento pero falla con los datos nuevos.
  • Datos de prueba: Se trata del «examen» final del modelo. Nunca se utiliza para actualizar pesos ni ajustar configuraciones. La evaluación de los datos de prueba proporciona métricas de rendimiento definitivas, como la precisión, la recuperación y la precisión media (mAP), que las partes interesadas utilizan para decidir si un modelo está listo para su implementación.

La gestión adecuada de estas divisiones suele verse facilitada por herramientas como la Ultralytics , que puede organizar automáticamente los conjuntos de datos cargados en estas categorías esenciales para garantizar una evaluación rigurosa del modelo.

Importancia de una evaluación imparcial

El valor principal de los datos de prueba reside en su capacidad para detect problemas de sesgo y varianza en los conjuntos de datos. Si un modelo alcanza una precisión del 99 % en los datos de entrenamiento, pero solo del 60 % en los datos de prueba, esto indica una alta varianza (sobreajuste). Por el contrario, un rendimiento deficiente en ambos sugiere un subajuste.

El uso de un conjunto de pruebas designado se ajusta a los principios científicos de reproducibilidad y objetividad. Sin un conjunto de pruebas impoluto , los desarrolladores corren el riesgo de «enseñar para la prueba», filtrando efectivamente información de la fase de evaluación a la fase de entrenamiento, un fenómeno conocido como fuga de datos. Esto da lugar a estimaciones de rendimiento excesivamente optimistas que se desmoronan cuando el modelo se enfrenta a datos del mundo real.

Aplicaciones en el mundo real

Los datos de prueba son esenciales en todos los sectores que utilizan IA para garantizar la seguridad y la fiabilidad antes de que los sistemas entren en funcionamiento.

  • Conducción autónoma: En el desarrollo de vehículos autónomos, los datos de entrenamiento pueden consistir en millones de kilómetros recorridos por autopista en condiciones meteorológicas despejadas. Sin embargo, los datos de prueba deben incluir situaciones poco frecuentes y difíciles, como nevadas intensas, obstáculos repentinos o señales de tráfico confusas, que el coche nunca ha «visto» explícitamente durante el entrenamiento. Esto garantiza que el sistema de detección de objetos pueda reaccionar de forma segura en entornos impredecibles.
  • Diagnóstico sanitario: al crear un modelo para la detección de tumores en imágenes médicas, el conjunto de entrenamiento puede provenir de la base de datos de un hospital específico. Para verificar que el modelo es robusto y seguro para su uso general, lo ideal es que los datos de prueba incluyan escáneres de diferentes hospitales, tomados con diferentes máquinas y que representen una demografía de pacientes diversa. Esta validación externa confirma que la IA no está sesgada hacia un tipo de equipo o población específicos.

Evaluación del rendimiento con código

Utilización de la ultralytics paquete, puede evaluar fácilmente el rendimiento de un modelo en un conjunto de datos retenido. Aunque el val El modo se utiliza a menudo para la validación durante el entrenamiento, pero también se puede configurar para que se ejecute en una división de prueba específica definida en su Configuración YAML del conjunto de datos.

A continuación se explica cómo evaluar un modelo YOLO26 preentrenado para obtener métricas como mAP50:

from ultralytics import YOLO

# Load a pre-trained YOLO26 model
model = YOLO("yolo26n.pt")

# Evaluate the model's performance on the validation set
# (Note: In a strict testing workflow, you would point 'data'
# to a YAML that defines a specific 'test' split and use split='test')
metrics = model.val(data="coco8.yaml")

# Print a specific metric, e.g., mAP at 50-95% IoU
print(f"Mean Average Precision (mAP50-95): {metrics.box.map}")

Este proceso genera métricas exhaustivas, lo que permite a los desarrolladores comparar objetivamente diferentes arquitecturas, como YOLO26 frente a YOLO11, y garantizar que la solución elegida cumpla los objetivos definidos para el proyecto. Las pruebas rigurosas son el último paso para garantizar que se cumplan los estándares de seguridad de alta calidad de la IA.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora