Exactitud vs. precisión vs. exhaustividad en aprendizaje automático
Aprende sobre exactitud, precisión y exhaustividad (recall) en aprendizaje automático. Explora la matriz de confusión, la puntuación F1 y cómo usar estas métricas de evaluación vitales.

El aprendizaje automático (ML) es una rama de la inteligencia artificial (IA) que se centra en la creación de sistemas que aprenden a partir de los datos. Desempeña un papel central en muchas otras áreas de la IA, incluida la visión artificial, donde las máquinas interpretan imágenes, y el procesamiento del lenguaje natural, donde comprenden y generan lenguaje humano.
A menudo, estos modelos de IA utilizan técnicas de aprendizaje profundo para realizar predicciones a partir de datos. Aunque estos sistemas pueden ser muy eficaces, no siempre producen predicciones correctas. Algunas salidas pueden ser exactas, mientras que otras no dan en el blanco.
Saber cómo se producen estos errores es una parte fundamental para evaluar el rendimiento de un modelo. Para medir el rendimiento, podemos utilizar métricas de evaluación de modelos.
Las métricas de evaluación comunes incluyen la exactitud (corrección general), la precisión (fiabilidad de las predicciones positivas) y la exhaustividad (lo bien que el modelo identifica los positivos reales). Pueden parecer similares al principio, pero cada una se centra en una parte diferente del comportamiento del modelo.
En este artículo, analizaremos más de cerca cada una de estas métricas de rendimiento de modelos de IA. También exploraremos cómo se relacionan entre sí y cómo elegir la adecuada para tu caso de uso. ¡Comencemos!
Link to this sectionLas métricas de evaluación de modelos son importantes en el aprendizaje automático#
Un modelo de aprendizaje automático podría parecer que funciona bien al principio. Pero sin las métricas de evaluación adecuadas, es difícil entender qué tan exactos son sus resultados. Estas métricas dan estructura a la evaluación del modelo y ayudan a responder a una pregunta clave: ¿Son útiles y fiables las predicciones del modelo para una tarea determinada?
Métricas como la exactitud, la precisión y la exhaustividad ofrecen a los desarrolladores de IA una forma clara de medir el funcionamiento de un modelo. Por ejemplo, al comparar diferentes modelos, estas métricas permiten ver cuál funciona mejor para una tarea específica. Ayudan a evaluar el rendimiento y guían la elección del modelo que mejor se adapta a los objetivos de un proyecto de IA.

Fig 1. Flujo de trabajo de entrenamiento y evaluación de modelos (Fuente)
Estas métricas también hacen que las comparaciones de rendimiento sean más objetivas. En lugar de depender de conjeturas u observaciones incompletas, proporcionan información medible sobre cómo se comporta un modelo en diferentes situaciones. Al hacerlo, destacan qué aspectos del rendimiento son más importantes en cada contexto.
Por ejemplo, la elección de la métrica a menudo depende de la aplicación. En aplicaciones de IA en el cuidado de la salud, la exhaustividad es importante porque el objetivo es identificar tantos casos positivos como sea posible, incluso si algunos negativos se marcan erróneamente. Por el contrario, un filtro de spam de correo electrónico puede priorizar la precisión para evitar marcar incorrectamente correos legítimos como spam.
Link to this sectionLa matriz de confusión: la base de las métricas de clasificación#
La matriz de confusión es una tabla de dos por dos que resulta fundamental para evaluar modelos de IA. Organiza las predicciones en cuatro categorías comparando los resultados reales con los resultados previstos (las respuestas que da el modelo).
Esta comparación proporciona una visión detallada del rendimiento del modelo. Forma la base de métricas de evaluación clave como la precisión y la exhaustividad, que se calculan directamente a partir de los valores de la matriz.
Las filas de la tabla representan las clases reales y las columnas representan las clases predichas. Cada celda muestra el recuento de resultados en esa categoría. En pocas palabras, muestra cuántas predicciones fueron correctas y los tipos de errores que cometió el modelo.
La matriz de confusión es especialmente útil cuando los datos están desequilibrados, lo que significa que algunas categorías tienen muchos más ejemplos que otras. También es útil cuando los diferentes tipos de errores conllevan diferentes costes.
Por ejemplo, en la detección de fraudes, detectar actividades fraudulentas es fundamental, pero marcar incorrectamente transacciones reales también puede causar problemas. La matriz deja claro con qué frecuencia ocurre cada tipo de error.
Link to this sectionElementos de la matriz de confusión#
Aquí tienes un resumen de los diferentes elementos de una matriz de confusión:
- Verdadero positivo (TP): cuando el modelo predice correctamente un caso positivo, se registra como un verdadero positivo. Por ejemplo, un modelo de visión artificial clasifica correctamente un vehículo en una imagen.
- Verdadero negativo (TN): un verdadero negativo ocurre cuando el modelo identifica correctamente un caso negativo. Por ejemplo, un clasificador de correo electrónico marca un mensaje normal como no spam.
- Falso positivo (FP): el modelo genera un falso positivo cuando predice incorrectamente un resultado positivo para un caso que es realmente negativo. También conocido como error de tipo I, esto puede suceder cuando un sistema de detección de fraudes marca una transacción válida como fraudulenta.
- Falso negativo (FN): un falso negativo se registra cuando el modelo no detecta un caso positivo y lo predice incorrectamente como negativo. También conocido como error de tipo II, esto puede ocurrir cuando una herramienta de diagnóstico no detecta una enfermedad en un paciente que realmente está enfermo.

Fig 2. Los elementos de una matriz de confusión (Fuente)
Link to this sectionRepresentación visual e interpretación de la matriz de confusión#
Una matriz de confusión se muestra en formato de cuadrícula. El eje vertical muestra las clases reales y el eje horizontal muestra las clases predichas. Las predicciones correctas aparecen a lo largo de la diagonal, representando verdaderos positivos y verdaderos negativos.
Los errores se encuentran fuera de la diagonal, cubriendo falsos positivos y falsos negativos. Esta estructura hace que sea fácil identificar las fortalezas y debilidades.
Link to this section¿Qué es la exactitud en el aprendizaje automático?#
La exactitud es una de las métricas más utilizadas para evaluar el rendimiento de un modelo de aprendizaje automático. Mide con qué frecuencia las predicciones son correctas en todas las clases. En otras palabras, responde a una pregunta sencilla: de todas las predicciones que hizo el modelo de IA, ¿cuántas fueron correctas?
La fórmula de la exactitud es el número de predicciones correctas (que incluye tanto los verdaderos positivos como los verdaderos negativos) dividido por el número total de predicciones. La exactitud es sencilla de calcular y fácil de entender, lo que la convierte en un punto de partida común en la evaluación de modelos.
En general, la exactitud es fiable cuando se manejan conjuntos de datos equilibrados. Sin embargo, a menudo puede ser engañosa en conjuntos de datos desequilibrados donde una clase domina sobre las demás. Un modelo que siempre predice la clase mayoritaria aún puede lograr una puntuación de exactitud alta mientras no detecta otras clases minoritarias.
Por ejemplo, en un conjunto de datos de imágenes donde solo unas pocas imágenes contienen peatones, un modelo que predice "sin peatones" para cada imagen puede lograr una alta exactitud, pero no detectar los peatones reales en absoluto.
Esto se debe a que la exactitud por sí sola no muestra qué tipo de errores comete un modelo ni con qué frecuencia ocurren. Por eso es importante también observar métricas como la precisión y la exhaustividad para comprender completamente el funcionamiento de un modelo de IA.
Link to this sectionAnálisis profundo de la precisión: minimizando las falsas alarmas#
La precisión es una métrica de evaluación clave que mide la exactitud de las predicciones positivas de un modelo. Responde a la pregunta: de todas las instancias predichas como positivas, ¿cuántas fueron correctas?
La fórmula de precisión es el número de verdaderos positivos dividido por la suma de verdaderos positivos y falsos positivos. Es particularmente importante cuando una predicción positiva sería costosa si resultara ser incorrecta.

Fig 3. Comparación de exactitud y precisión. (Fuente)
Por ejemplo, en la detección de fraudes, un modelo con baja precisión puede marcar muchas transacciones válidas como fraudulentas, creando problemas innecesarios tanto para los usuarios como para los equipos de soporte. Un modelo con alta precisión reduce este riesgo asegurándose de que las transacciones marcadas tengan más probabilidades de ser fraude real.
Aunque una alta precisión es buena, los modelos que se centran demasiado en ella pueden volverse muy selectivos, perdiendo casos positivos reales. Por eso la métrica de precisión se verifica a menudo junto con la exhaustividad para mantener el rendimiento equilibrado.
Link to this section¿Qué es la exhaustividad?#
La exhaustividad (o recall) es una métrica que se utiliza para medir lo bien que un modelo identifica los casos positivos reales. Se conoce como sensibilidad o tasa de verdaderos positivos, y responde a la pregunta: de todas las instancias positivas reales, ¿cuántas detectó el modelo correctamente?
La fórmula de exhaustividad es el número de verdaderos positivos dividido por la suma de verdaderos positivos y falsos negativos. Una puntuación alta de exhaustividad muestra que el modelo está capturando la mayoría de los casos positivos reales en los datos.
La exhaustividad es esencial en industrias como la de la salud, donde no detectar una afección puede retrasar el tratamiento y poner en riesgo a los pacientes. Incluso si algunos casos negativos se marcan incorrectamente, identificar todos los casos reales sigue siendo la máxima prioridad.
Sin embargo, los modelos que se centran solo en la exhaustividad pueden marcar demasiados falsos positivos, lo que reduce la precisión y perjudica la eficiencia general del modelo. Equilibrar la exhaustividad y la precisión es crucial para un rendimiento fiable del modelo de IA.
Link to this sectionEl acto de equilibrio: el compromiso entre precisión y exhaustividad#
La precisión y la exhaustividad a menudo se mueven en direcciones opuestas. Cuando una mejora, la otra puede disminuir. Este compromiso es un desafío común en las tareas de aprendizaje automático.
Un modelo de alta precisión predice algo como positivo solo cuando está seguro. Esto reduce las falsas alarmas pero puede pasar por alto positivos reales, lo que reduce la exhaustividad. Un modelo que intenta captar cada positivo aumenta la exhaustividad pero arriesga más falsas alarmas, lo que reduce la precisión.
Este compromiso se vuelve más claro cuando ajustas el umbral de decisión del modelo. El umbral es el límite que utiliza un sistema para convertir una puntuación o probabilidad en una acción o etiqueta. Bajar el umbral hace que el sistema actúe positivamente con más frecuencia, lo que puede aumentar la exhaustividad pero puede reducir la precisión. Aumentar el umbral tiene el efecto contrario: el modelo predice menos positivos, la precisión mejora, pero la exhaustividad suele caer.
Digamos que estás trabajando en la detección de spam. El modelo tiene que equilibrar el riesgo de dejar entrar spam en la bandeja de entrada con el riesgo de bloquear correos electrónicos reales. Un filtro estricto aún puede pasar por alto algo de spam, mientras que uno más indulgente puede bloquear accidentalmente mensajes legítimos. El equilibrio adecuado depende del caso de uso y del coste de cada tipo de error.
Link to this sectionLa importancia de la curva de precisión-exhaustividad#
La curva de precisión-exhaustividad o curva PR muestra cómo cambian la precisión y la exhaustividad a medida que cambia el umbral de decisión del modelo. Cada punto representa un compromiso diferente entre ambas. La curva PR es especialmente útil para conjuntos de datos desequilibrados, donde una clase es mucho menos frecuente.
También proporciona una información más significativa que la curva característica operativa del receptor (ROC), que también muestra lo bien que un modelo separa los positivos de los negativos en diferentes umbrales de decisión. Un modelo con alta precisión y alta exhaustividad tendrá una curva de precisión-exhaustividad que se mantendrá cerca de la esquina superior derecha, lo cual suele ser ideal.
Link to this sectionPresentamos la puntuación F1: una métrica combinada para el equilibrio#
La puntuación F1 proporciona un valor único que captura el equilibrio entre precisión y exhaustividad. La puntuación F1 se calcula como dos veces el producto de la precisión y la exhaustividad, dividido por la suma de la precisión y la exhaustividad. Es útil cuando tanto los falsos positivos como los falsos negativos importan, y es útil cuando se trabaja con conjuntos de datos desequilibrados o cuando se necesita una visión equilibrada del rendimiento del modelo.

Fig 4. Cálculo de la puntuación F1 utilizando precisión y exhaustividad (Fuente)
Link to this sectionMás allá de la exactitud, la precisión y la exhaustividad#
Si bien la exactitud, la precisión y la exhaustividad son esenciales, otras métricas ofrecen información adicional basada en el tipo de modelo y las características del conjunto de datos.
Aquí tienes algunas métricas de uso común que ayudan a evaluar diferentes aspectos del rendimiento:
- Especificidad: mide lo bien que el modelo identifica los negativos reales. Es útil cuando evitar los falsos positivos es importante.
- AUC: AUC, o área bajo la curva, da una puntuación única que refleja lo bien que el modelo puede distinguir entre clases.
- Pérdida logarítmica (Log loss): La pérdida logarítmica se utiliza para medir la confianza de un modelo al realizar predicciones y penaliza más las predicciones erróneas hechas con alta confianza. Aquí, la confianza se refiere a lo seguro que está el modelo sobre su predicción.
- Evaluación multietiqueta: En tareas multietiqueta, las métricas se promedian entre las etiquetas para reflejar el rendimiento general del modelo.
Link to this sectionAplicación de la exactitud, la precisión y la exhaustividad en visión artificial#
Ahora que entendemos mejor la exactitud, la precisión y la exhaustividad, veamos cómo se aplican estas métricas en la visión artificial.
Los modelos de visión artificial como Ultralytics YOLO11 admiten tareas como la detección de objetos, donde el modelo identifica qué objetos están presentes en una imagen y los localiza mediante cajas delimitadoras. Cada predicción incluye tanto la etiqueta del objeto como su posición, lo que hace que la evaluación sea más compleja que simplemente comprobar si una etiqueta es correcta.

Fig 5. Un ejemplo de uso de Ultralytics YOLO11 para la detección de objetos. (Fuente)
Considera una aplicación de comercio minorista donde se utilizan cámaras para rastrear automáticamente los productos en los estantes. Un modelo de detección de objetos podría identificar artículos como cajas de cereales, latas de refresco o botellas de agua y marcar sus posiciones.
En este caso, la precisión nos dice cuántos de los artículos detectados son realmente correctos. Una alta precisión significa que el sistema evita los falsos positivos, como etiquetar una sombra o un objeto de fondo como un producto. La exhaustividad muestra cuántos de los productos reales en el estante logró detectar el modelo. Una alta exhaustividad significa que se pierden menos artículos, lo cual es fundamental para obtener recuentos de inventario precisos.
La exactitud aún puede proporcionar una medida general de corrección, pero en este tipo de entorno, perder incluso unos pocos productos o detectar artículos que no están allí puede tener un gran impacto en la gestión de existencias. Por eso los desarrolladores observan la precisión, la exhaustividad y la exactitud juntas para garantizar que el sistema sea fiable y práctico para el uso en el mundo real.
Link to this sectionExactitud, precisión y exhaustividad: conclusiones clave#
La exactitud, la precisión y la exhaustividad muestran diferentes aspectos del rendimiento de un modelo de aprendizaje automático. Confiar en una sola métrica puede ser engañoso.
Herramientas y métricas como la matriz de confusión, las curvas de precisión-exhaustividad y la puntuación F1 ayudan a revelar los compromisos y a guiar las decisiones para realizar mejoras en el modelo de ML. Al elegir la combinación correcta de métricas para una solución de IA específica, puedes asegurarte de que los modelos sean exactos, fiables y eficaces en aplicaciones del mundo real.
¡Explora nuestra creciente comunidad! Echa un vistazo a nuestro repositorio de GitHub para aprender más sobre IA. ¿Listo para comenzar tus proyectos de visión artificial? Echa un vistazo a nuestras opciones de licencia. ¡Descubre la IA en agricultura y la visión por IA en robótica visitando nuestras páginas de soluciones!






