Exactitud frente a precisión frente a memoria en el aprendizaje automático

Abirami Vina

6 min leer

20 de agosto de 2025

Obtenga información sobre la exactitud, la precisión y la recuperación en el aprendizaje automático. Explore la matriz de confusión, la puntuación F1 y cómo utilizar estas métricas de evaluación vitales.

El aprendizaje automático (AM) es una rama de la inteligencia artificial (IA) que se centra en la creación de sistemas que aprenden de los datos. Desempeña un papel fundamental en muchas otras áreas de la IA, como la visión por ordenador, en la que las máquinas interpretan imágenes, y el procesamiento del lenguaje natural, en el que comprenden y generan lenguaje humano.

A menudo, estos modelos de IA utilizan técnicas de aprendizaje profundo para hacer predicciones a partir de los datos. Aunque estos sistemas pueden ser muy eficaces, no siempre producen predicciones correctas. Algunos resultados pueden ser precisos, mientras que otros no dan en el blanco. 

Saber cómo se producen estos errores es fundamental para evaluar el rendimiento de un modelo. Para medir el rendimiento, podemos utilizar métricas de evaluación de modelos

Las métricas de evaluación habituales son la exactitud (corrección general), la precisión (fiabilidad de las predicciones positivas) y la recuperación (grado en que el modelo identifica los positivos reales). A primera vista pueden parecer similares, pero cada una se centra en una parte distinta del comportamiento de un modelo. 

En este artículo, examinaremos más de cerca cada una de estas métricas de rendimiento de los modelos de IA. También exploraremos cómo se relacionan entre sí y cómo elegir la correcta para su caso de uso. Empecemos.

Las métricas de evaluación de modelos son importantes en el aprendizaje automático

A primera vista, puede parecer que un modelo de aprendizaje automático funciona bien. Pero sin las métricas de evaluación adecuadas, es difícil comprender la precisión de sus resultados. Estas métricas estructuran la evaluación del modelo y ayudan a responder a una pregunta clave: ¿Son las predicciones del modelo útiles y fiables para una tarea determinada?

Métricas como la exactitud, la precisión y la recuperación ofrecen a los desarrolladores de IA una forma clara de medir lo bien que funciona un modelo. Por ejemplo, al comparar diferentes modelos, estas métricas permiten ver cuál es el que mejor funciona para una tarea específica. Ayudan a evaluar el rendimiento y a orientar la elección del modelo que mejor se ajusta a los objetivos de un proyecto de IA.

Fig. 1. Flujo de trabajo de entrenamiento y evaluación de modelos(Fuente)

Estas métricas también hacen que las comparaciones de rendimiento sean más objetivas. En lugar de basarse en conjeturas u observaciones incompletas, proporcionan información cuantificable sobre el comportamiento de un modelo en distintas situaciones. Al hacerlo, ponen de relieve qué aspectos del rendimiento importan más en cada contexto.

Por ejemplo, la elección de la métrica suele depender de la aplicación. En las aplicaciones sanitarias de IA, la recuperación es importante porque el objetivo es identificar el mayor número posible de casos positivos, aunque se marquen erróneamente algunos negativos. En cambio, un filtro de spam de correo electrónico puede dar prioridad a la precisión para evitar marcar incorrectamente correos legítimos como spam.

La matriz de confusión: La base de las métricas de clasificación

La matriz de confusión es una tabla de dos por dos fundamental para evaluar los modelos de IA. Organiza las predicciones en cuatro categorías comparando los resultados reales con los resultados previstos (las respuestas que da el modelo). 

Esta comparación proporciona una visión detallada del rendimiento del modelo. Constituye la base de métricas de evaluación clave como la precisión y la recuperación, que se calculan directamente a partir de los valores de la matriz.

Las filas de la tabla representan las clases reales y las columnas las clases previstas. Cada celda muestra el recuento de resultados en esa categoría. En pocas palabras, muestra cuántas predicciones fueron correctas y los tipos de errores que cometió el modelo.

La matriz de confusión es especialmente útil cuando los datos están desequilibrados, es decir, cuando algunas categorías tienen muchos más ejemplos que otras. También es útil cuando los distintos tipos de errores tienen costes diferentes. 

Por ejemplo, en la detección de fraudes, detectar actividades fraudulentas es fundamental, pero marcar incorrectamente transacciones reales también puede causar problemas. La matriz aclara con qué frecuencia se produce cada tipo de error.

Elementos de la matriz de confusión

He aquí un resumen de los distintos elementos de una matriz de confusión:

  • Verdadero positivo (TP): Cuando el modelo predice correctamente un caso positivo, se registra como verdadero positivo. Por ejemplo, un modelo de visión por ordenador clasifica correctamente un vehículo en una imagen.

  • Verdadero negativo (VN): Un verdadero negativo se produce cuando el modelo identifica correctamente un caso negativo. Por ejemplo, un clasificador de correo electrónico marca un mensaje normal como no spam.

  • Falso positivo (FP): El modelo genera un falso positivo cuando predice incorrectamente un resultado positivo para una instancia que en realidad es negativa. También conocido como error de tipo I, puede ocurrir cuando un sistema de detección de fraudes marca una transacción válida como fraudulenta.

  • Falso negativo (FN): Se registra un falso negativo cuando el modelo no detecta un caso positivo y lo predice incorrectamente como negativo. También denominado error de tipo II, puede producirse cuando una herramienta de diagnóstico pasa por alto una enfermedad en un paciente que en realidad está enfermo.
Fig. 2. Los elementos de una matriz de confusión(Fuente)

Representación visual e interpretación de la matriz de confusión

Se muestra una matriz de confusión en formato de cuadrícula. El eje vertical muestra las clases reales y el eje horizontal las clases predichas. Las predicciones correctas aparecen a lo largo de la diagonal, representando los verdaderos positivos y los verdaderos negativos.

Los errores quedan fuera de la diagonal, abarcando los falsos positivos y los falsos negativos. Esta estructura facilita la detección de puntos fuertes y débiles.

¿Qué es la precisión en el aprendizaje automático?

La precisión es una de las métricas más utilizadas para evaluar el rendimiento de un modelo de aprendizaje automático. Mide la frecuencia con la que las predicciones son correctas en todas las clases. En otras palabras, responde a una pregunta sencilla: De todas las predicciones que hizo el modelo de IA, ¿cuántas fueron correctas?

La fórmula de la precisión es el número de predicciones correctas (que incluye tanto los verdaderos positivos como los verdaderos negativos) dividido por el número total de predicciones. La precisión es sencilla de calcular y fácil de entender, lo que la convierte en un punto de partida habitual en la evaluación de modelos.

Por lo general, la precisión es fiable cuando se manejan conjuntos de datos equilibrados. Sin embargo, la precisión puede ser engañosa en conjuntos de datos desequilibrados en los que una clase domina a las demás. Un modelo que siempre predice la clase mayoritaria puede obtener una puntuación de precisión alta sin detectar otras clases minoritarias.

Por ejemplo, en un conjunto de datos de imágenes en el que sólo unas pocas imágenes contienen peatones, un modelo que prediga "no hay peatón" para cada imagen puede lograr una alta precisión, pero fracasar completamente en la detección de los peatones reales.

Esto se debe a que la precisión por sí sola no muestra qué tipo de errores comete un modelo ni con qué frecuencia se producen. Por eso es importante fijarse también en métricas como la precisión y la recuperación para comprender plenamente lo bien que funciona un modelo de IA.

Profundizar en la precisión: Minimizar las falsas alarmas

La precisión es una métrica de evaluación clave que mide la exactitud de las predicciones positivas de un modelo. Responde a la pregunta: De todas las instancias predichas como positivas, ¿cuántas eran correctas?

La fórmula de la precisión es el número de verdaderos positivos dividido por la suma de verdaderos positivos y falsos positivos. Es especialmente importante cuando una predicción positiva sería costosa si resultara errónea.

Fig. 3. Comparación de la exactitud y la precisión.(Fuente)

Por ejemplo, en la detección de fraudes, un modelo de baja precisión puede marcar muchas transacciones válidas como fraudulentas, creando problemas innecesarios tanto para los usuarios como para los equipos de asistencia. Un modelo de alta precisión reduce este riesgo al asegurarse de que las transacciones marcadas tienen más probabilidades de ser un fraude real.

Aunque una precisión alta es buena, los modelos que se centran demasiado en ella pueden volverse muy selectivos y pasar por alto casos positivos reales. Por eso, a menudo se comprueba la precisión junto con la recuperación para mantener un rendimiento equilibrado.

¿Qué es la retirada?

La recuperación es una métrica que se utiliza para medir lo bien que un modelo identifica los casos positivos reales. Se conoce como sensibilidad o tasa de verdaderos positivos, y responde a la pregunta: De todos los casos positivos reales, ¿cuántos detectó correctamente el modelo?

La fórmula de la recuperación es el número de verdaderos positivos dividido por la suma de verdaderos positivos y falsos negativos. Una puntuación de recall alta indica que el modelo capta la mayoría de los casos positivos reales de los datos. 

La recuperación es esencial en sectores como el sanitario, en el que no detectar una enfermedad puede retrasar el tratamiento y poner en peligro a los pacientes. Aunque algunos casos negativos se marquen incorrectamente, identificar todos los casos verdaderos sigue siendo la máxima prioridad.

Sin embargo, los modelos que se centran únicamente en la recuperación pueden marcar demasiados falsos positivos, lo que reduce la precisión y perjudica la eficacia general del modelo. Equilibrar la recuperación y la precisión es crucial para un rendimiento fiable del modelo de IA.

El acto de equilibrio: Compromiso entre precisión y recuperación

La precisión y la recuperación se mueven a menudo en direcciones opuestas. Cuando uno mejora, el otro puede disminuir. Este equilibrio es un reto habitual en las tareas de aprendizaje automático.

Un modelo de alta precisión predice algo como positivo sólo cuando tiene confianza. Esto reduce las falsas alarmas, pero puede pasar por alto los verdaderos positivos, lo que disminuye la recuperación. Un modelo que intenta detectar todos los positivos aumenta la recuperación, pero se arriesga a que haya más falsas alarmas, lo que reduce la precisión.

Este equilibrio se hace más evidente cuando se ajusta el umbral de decisión del modelo. El umbral es el límite que utiliza un sistema para convertir una puntuación o probabilidad en una acción o etiqueta. Bajar el umbral hace que el sistema actúe positivamente con más frecuencia, lo que puede aumentar la recuperación pero reducir la precisión. Aumentar el umbral tiene el efecto contrario: el modelo predice menos positivos, la precisión mejora, pero la recuperación suele disminuir.

Supongamos que está trabajando en la detección de spam. El modelo tiene que equilibrar el riesgo de dejar entrar spam en la bandeja de entrada con el riesgo de bloquear correos electrónicos reales. Un filtro estricto puede pasar por alto algún spam, mientras que uno más indulgente puede bloquear accidentalmente mensajes legítimos. El equilibrio adecuado depende del caso de uso y del coste de cada tipo de error.

La importancia de la curva precisión-recuerdo

La curva de precisión-recuperación o curva PR muestra cómo cambian la precisión y la recuperación a medida que varía el umbral de decisión del modelo. Cada punto representa un compromiso diferente entre ambos. La curva PR es especialmente útil para conjuntos de datos desequilibrados, en los que una clase es mucho menos frecuente. 

También proporciona una visión más significativa que la curva ROC (Receiver Operating Characteristic), que también muestra lo bien que un modelo separa los positivos de los negativos en diferentes umbrales de decisión. Un modelo con una precisión y una recuperación elevadas tendrá una curva de precisión-recuperación que se mantendrá cerca de la esquina superior derecha, lo que suele ser ideal.

Presentación de la puntuación F1: Una métrica combinada para el equilibrio

La puntuación F1 proporciona un valor único que refleja el equilibrio entre precisión y recuperación. La puntuación F1 se calcula como dos veces el producto de precisión y recuperación, dividido por la suma de precisión y recuperación. Es útil cuando importan tanto los falsos positivos como los falsos negativos, y es útil cuando se trabaja con conjuntos de datos desequilibrados o cuando se necesita una visión equilibrada del rendimiento del modelo.

Fig. 4. Cálculo de la puntuación F1 mediante precisión y recuperación(Fuente)

Más allá de la exactitud, la precisión y la recuperación

Mientras que la exactitud, la precisión y la recuperación son esenciales, otras métricas ofrecen información adicional basada en el tipo de modelo y las características del conjunto de datos. 

He aquí algunas métricas de uso común que ayudan a evaluar distintos aspectos del rendimiento:

  • Especificidad: Mide lo bien que el modelo identifica los negativos reales. Es útil cuando es importante evitar falsos positivos.

  • AUC: AUC, o Área Bajo la Curva, da una puntuación única que refleja lo bien que el modelo puede distinguir entre clases.

  • Pérdida logarítmica: La pérdida logarítmica se utiliza para medir el grado de confianza de un modelo a la hora de realizar predicciones y penaliza más las predicciones erróneas realizadas con una confianza alta. Aquí, la confianza se refiere a lo seguro que está el modelo sobre su predicción.

  • Evaluación multietiqueta: En las tareas multietiqueta, las métricas se promedian entre etiquetas para reflejar el rendimiento general del modelo.

Aplicación de exactitud, precisión y memoria a la visión por ordenador

Ahora que tenemos una idea más clara de la exactitud, la precisión y la recuperación, vamos a ver cómo se aplican estas métricas en la visión por ordenador.

Los modelos de visión por ordenador como Ultralytics YOLO11 admiten tareas como la detección de objetos, en la que el modelo identifica qué objetos están presentes en una imagen y los localiza mediante cuadros delimitadores. Cada predicción incluye tanto la etiqueta del objeto como su posición, lo que hace que la evaluación sea más compleja que la simple comprobación de si una etiqueta es correcta.

Fig. 5. Ejemplo de utilización de Ultralytics YOLO11 para la detección de objetos.(Fuente.)

Pensemos en una aplicación de venta al por menor en la que se utilizan cámaras para hacer un seguimiento automático de los productos en las estanterías. Un modelo de detección de objetos podría identificar artículos como cajas de cereales, latas de refresco o botellas de agua y marcar su posición. 

En este caso, la precisión nos indica cuántos de los objetos detectados son realmente correctos. Una precisión alta significa que el sistema evita falsos positivos, como etiquetar una sombra o un objeto del fondo como producto. La recuperación muestra cuántos productos reales de la estantería ha detectado el modelo. Una alta recuperación significa que se pasan por alto menos artículos, lo que es fundamental para realizar recuentos de inventario precisos.

La exactitud puede seguir proporcionando una medida general de corrección, pero en este tipo de entornos, pasar por alto incluso unos pocos productos o detectar artículos que no existen puede tener un gran impacto en la gestión de las existencias. Por eso los desarrolladores tienen en cuenta la precisión, la recuperación y la exactitud para garantizar que el sistema sea fiable y práctico en el mundo real.

Exactitud, precisión y recuperación: Puntos clave

La exactitud, la precisión y la recuperación muestran diferentes aspectos del rendimiento de un modelo de aprendizaje automático. Basarse en una sola métrica puede ser engañoso.

Herramientas y métricas como la matriz de confusión, las curvas de precisión-recuerdo y la puntuación F1 ayudan a revelar las ventajas y desventajas y a orientar las decisiones sobre la introducción de mejoras en el modelo de ML. Al elegir la combinación adecuada de métricas para una solución de IA específica, puede asegurarse de que los modelos son precisos, fiables y eficaces en aplicaciones del mundo real.

Explore nuestra creciente comunidad Echa un vistazo a nuestro repositorio de GitHub para aprender más sobre IA. ¿Listo para empezar sus proyectos de visión por ordenador? Eche un vistazo a nuestras opciones de licencia. Descubra la IA en la agricultura y la IA de visión en la robótica visitando nuestras páginas de soluciones. 

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Empezar gratis
Enlace copiado en el portapapeles