Al hacer clic en “Aceptar todas las cookies”, aceptas el almacenamiento de cookies en tu dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información
Configuración de cookies
Al hacer clic en “Aceptar todas las cookies”, aceptas el almacenamiento de cookies en tu dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información
Aprenda sobre exactitud, precisión y exhaustividad (Recall) en el aprendizaje automático. Explore la matriz de confusión, la puntuación F1 y cómo utilizar estas métricas de evaluación vitales.
El aprendizaje automático (ML) es una rama de la inteligencia artificial (IA) que se centra en la creación de sistemas que aprenden de los datos. Desempeña un papel central en muchas otras áreas de la IA, incluida la visión artificial, donde las máquinas interpretan imágenes, y el procesamiento del lenguaje natural, donde comprenden y generan el lenguaje humano.
A menudo, estos modelos de IA utilizan técnicas de deep learning para hacer predicciones a partir de los datos. Aunque estos sistemas pueden ser muy eficaces, no siempre producen predicciones correctas. Algunas salidas pueden ser precisas, mientras que otras no dan en el blanco.
Saber cómo se producen estos errores es una parte clave para evaluar el rendimiento de un modelo. Para medir el rendimiento, podemos utilizar métricas de evaluación del modelo.
Las métricas de evaluación comunes incluyen la precisión (corrección general), la exactitud (fiabilidad de las predicciones positivas) y la exhaustividad (qué tan bien el modelo identifica los positivos reales). Pueden parecer similares al principio, pero cada una se centra en una parte diferente del comportamiento de un modelo.
En este artículo, analizaremos más de cerca cada una de estas métricas de rendimiento de los modelos de IA. También exploraremos cómo se relacionan entre sí y cómo elegir la adecuada para su caso de uso. ¡Empecemos!
Las métricas de evaluación del modelo son importantes en el aprendizaje automático
Un modelo de aprendizaje automático puede parecer que está funcionando bien al principio. Pero sin las métricas de evaluación adecuadas, es difícil entender la precisión de sus resultados. Estas métricas dan estructura a la evaluación del modelo y ayudan a responder a una pregunta clave: ¿Son las predicciones del modelo útiles y fiables para una tarea determinada?
Las métricas como la precisión (accuracy), la exactitud (precision) y la exhaustividad (recall) ofrecen a los desarrolladores de IA una forma clara de medir el rendimiento de un modelo. Por ejemplo, al comparar diferentes modelos, estas métricas permiten ver cuál funciona mejor para una tarea específica. Ayudan a evaluar el rendimiento y a orientar la elección del modelo que mejor se adapta a los objetivos de un proyecto de IA.
Fig. 1. Flujo de trabajo de entrenamiento y evaluación del modelo (Fuente)
Estas métricas también hacen que las comparaciones de rendimiento sean más objetivas. En lugar de depender de conjeturas u observaciones incompletas, proporcionan información medible sobre cómo se comporta un modelo en diferentes situaciones. Al hacerlo, resaltan qué aspectos del rendimiento son más importantes en cada contexto.
Por ejemplo, la elección de la métrica a menudo depende de la aplicación. En aplicaciones de IA para el cuidado de la salud, la exhaustividad (recall) es importante porque el objetivo es identificar tantos casos positivos como sea posible, incluso si algunos negativos se marcan erróneamente. Por el contrario, un filtro de spam de correo electrónico puede priorizar la precisión para evitar marcar incorrectamente los correos electrónicos legítimos como spam.
La matriz de confusión: La base de las métricas de clasificación
La matriz de confusión es una tabla de dos por dos que es fundamental para evaluar los modelos de IA. Organiza las predicciones en cuatro categorías comparando los resultados reales con los resultados predichos (las respuestas que da el modelo).
Esta comparación proporciona una visión detallada del rendimiento del modelo. Constituye la base de métricas de evaluación clave como la precisión y la exhaustividad, que se calculan directamente a partir de los valores de la matriz.
Las filas de la tabla representan las clases reales, y las columnas representan las clases predichas. Cada celda muestra el recuento de resultados en esa categoría. En pocas palabras, muestra cuántas predicciones fueron correctas y los tipos de errores que cometió el modelo.
La matriz de confusión es especialmente útil cuando los datos están desequilibrados, lo que significa que algunas categorías tienen muchos más ejemplos que otras. También es útil cuando los diferentes tipos de errores conllevan diferentes costes.
Por ejemplo, en la detección de fraudes, es fundamental detectar la actividad fraudulenta, pero señalar incorrectamente las transacciones reales también puede causar problemas. La matriz deja claro con qué frecuencia ocurre cada tipo de error.
Elementos de la matriz de confusión
Aquí tienes una descripción general de los diferentes elementos de una matriz de confusión:
Verdadero positivo (VP): Cuando el modelo predice correctamente una instancia positiva, se registra como un verdadero positivo. Por ejemplo, un modelo de visión artificial clasifica correctamente un vehículo en una imagen.
Verdadero negativo (VN): Un verdadero negativo ocurre cuando el modelo identifica correctamente una instancia negativa. Por ejemplo, un clasificador de correo electrónico marca un mensaje normal como no spam.
Falso positivo (FP): El modelo genera un falso positivo cuando predice incorrectamente un resultado positivo para una instancia que en realidad es negativa. También conocido como Error de Tipo I, esto puede suceder cuando un sistema de detección de fraude marca una transacción válida como fraudulenta.
Falso negativo (FN): Se registra un falso negativo cuando el modelo no detecta un caso positivo y lo predice incorrectamente como negativo. También conocido como Error de Tipo II, esto puede ocurrir cuando una herramienta de diagnóstico no detecta una enfermedad en un paciente que en realidad está enfermo.
Fig. 2. Los elementos de una matriz de confusión (Fuente)
Representación visual e interpretación de la matriz de confusión
Una matriz de confusión se muestra en formato de cuadrícula. El eje vertical muestra las clases reales y el eje horizontal muestra las clases predichas. Las predicciones correctas aparecen a lo largo de la diagonal, representando los verdaderos positivos y los verdaderos negativos.
Los errores quedan fuera de la diagonal, cubriendo los falsos positivos y los falsos negativos. Esta estructura facilita la detección de puntos fuertes y débiles.
¿Qué es la precisión en el aprendizaje automático?
La precisión es una de las métricas más utilizadas para evaluar el rendimiento de un modelo de aprendizaje automático. Mide la frecuencia con la que las predicciones son correctas en todas las clases. En otras palabras, responde a una pregunta simple: De todas las predicciones que hizo el modelo de IA, ¿cuántas fueron correctas?
La fórmula para la exactitud es el número de predicciones correctas (que incluye tanto los verdaderos positivos como los verdaderos negativos) dividido por el número total de predicciones. La exactitud es sencilla de calcular y fácil de entender, lo que la convierte en un punto de partida común en la evaluación de modelos.
Generalmente, la precisión es fiable cuando se manejan conjuntos de datos equilibrados. Sin embargo, la precisión a menudo puede ser engañosa en conjuntos de datos desequilibrados donde una clase domina a las demás. Un modelo que siempre predice la clase mayoritaria aún puede lograr una alta puntuación de precisión, pero no detecta otras clases minoritarias.
Por ejemplo, en un conjunto de datos de imágenes en el que sólo unas pocas imágenes contienen peatones, un modelo que predice "ningún peatón" para cada imagen puede seguir obteniendo una alta precisión, pero fracasar completamente en la detección de los peatones reales.
Esto se debe a que la precisión por sí sola no muestra qué tipo de errores comete un modelo ni con qué frecuencia ocurren. Por eso es importante también observar métricas como la precisión (precision) y la exhaustividad (recall) para comprender completamente cómo funciona un modelo de IA.
Análisis en profundidad de la precisión: Minimización de falsas alarmas
La precisión es una métrica de evaluación clave que mide la exactitud de las predicciones positivas de un modelo. Responde a la pregunta:De todas las instancias predichas como positivas, ¿cuántas fueron correctas?
La fórmula de precisión es el número de verdaderos positivos dividido por la suma de verdaderos positivos y falsos positivos. Es particularmente importante cuando una predicción positiva sería costosa si resultara ser incorrecta.
Fig. 3. Comparación de precisión y exactitud. (Fuente)
Por ejemplo, en la detección de fraudes, un modelo con baja precisión puede marcar muchas transacciones válidas como fraudulentas, creando problemas innecesarios tanto para los usuarios como para los equipos de soporte. Un modelo con alta precisión reduce este riesgo al asegurarse de que las transacciones marcadas tienen más probabilidades de ser un fraude real.
Si bien una alta precisión es buena, los modelos que se centran demasiado en ella pueden volverse muy selectivos y perder casos positivos reales. Es por eso que la métrica de precisión a menudo se verifica junto con la exhaustividad para mantener el rendimiento equilibrado.
¿Qué es el recall?
Recall es una métrica que se utiliza para medir la eficacia con la que un modelo identifica los casos positivos reales. Se conoce como sensibilidad o tasa de verdaderos positivos, y responde a la pregunta: De todas las instancias positivas reales, ¿cuántas detectó correctamente el modelo?
La fórmula para la exhaustividad es el número de verdaderos positivos dividido por la suma de verdaderos positivos y falsos negativos. Una alta puntuación de exhaustividad muestra que el modelo está capturando la mayoría de los casos positivos reales en los datos.
El recall es esencial en industrias como la atención médica, donde no detectar una condición puede retrasar el tratamiento y poner en riesgo a los pacientes. Incluso si algunos casos negativos se marcan incorrectamente, identificar todos los casos verdaderos sigue siendo la máxima prioridad.
Sin embargo, los modelos que se centran únicamente en la exhaustividad pueden señalar demasiados falsos positivos, lo que reduce la precisión y perjudica la eficiencia general del modelo. Equilibrar la exhaustividad y la precisión es crucial para un rendimiento fiable del modelo de IA.
El equilibrio: Compensación entre precisión y exhaustividad
La precisión y la exhaustividad (recall) a menudo se mueven en direcciones opuestas. Cuando una mejora, la otra puede disminuir. Esta compensación es un desafío común en las tareas de aprendizaje automático.
Un modelo de alta precisión predice algo como positivo solo cuando está seguro. Esto reduce las falsas alarmas, pero puede pasar por alto positivos reales, lo que reduce la exhaustividad. Un modelo que intenta capturar todos los positivos aumenta la exhaustividad, pero se arriesga a más falsas alarmas, lo que reduce la precisión.
Esta compensación se vuelve más clara cuando se ajusta el umbral de decisión del modelo. El umbral es el punto de corte que un sistema utiliza para convertir una puntuación o probabilidad en una acción o etiqueta. Bajar el umbral hace que el sistema actúe positivamente con más frecuencia, lo que puede aumentar la exhaustividad, pero puede reducir la precisión. Subir el umbral tiene el efecto contrario: el modelo predice menos positivos, la precisión mejora, pero la exhaustividad generalmente disminuye.
Digamos que estás trabajando en la detección de spam. El modelo tiene que equilibrar el riesgo de dejar entrar spam en la bandeja de entrada con el riesgo de bloquear correos electrónicos reales. Un filtro estricto puede seguir dejando pasar algo de spam, mientras que uno más indulgente puede bloquear accidentalmente mensajes legítimos. El equilibrio adecuado depende del caso de uso y del coste de cada tipo de error.
La importancia de la curva precisión-recall
La curva precisión-recall o curva PR muestra cómo cambian la precisión y el recall a medida que cambia el umbral de decisión del modelo. Cada punto representa una compensación diferente entre los dos. La curva PR es especialmente útil para conjuntos de datos desequilibrados, donde una clase es mucho menos frecuente.
También proporciona información más significativa que la curva ROC (Receiver Operating Characteristic), que también muestra qué tan bien un modelo separa los positivos de los negativos en diferentes umbrales de decisión. Un modelo con alta precisión y exhaustividad tendrá una curva de precisión-exhaustividad que se mantendrá cerca de la esquina superior derecha, lo cual es generalmente ideal.
Presentación de la puntuación F1: Una métrica combinada para el equilibrio
El F1-score proporciona un valor único que captura el equilibrio entre precisión y exhaustividad (recall). El F1-score se calcula como dos veces el producto de la precisión y la exhaustividad, dividido por la suma de la precisión y la exhaustividad. Es útil cuando tanto los falsos positivos como los falsos negativos importan, y es útil cuando se trabaja con conjuntos de datos desequilibrados o cuando se necesita una visión equilibrada del rendimiento del modelo.
Fig. 4. Cálculo del puntaje F1 utilizando precisión y exhaustividad (Fuente)
Más allá de la exactitud, la precisión y la exhaustividad
Si bien la precisión, la exactitud y la exhaustividad son esenciales, otras métricas ofrecen información adicional basada en el tipo de modelo y las características del conjunto de datos.
Estas son algunas métricas de uso común que ayudan a evaluar diferentes aspectos del rendimiento:
Especificidad: Mide qué tan bien el modelo identifica los negativos reales. Es útil cuando es importante evitar los falsos positivos.
AUC: AUC, o Área Bajo la Curva, proporciona una única puntuación que refleja la capacidad del modelo para distinguir entre clases.
Pérdida logarítmica: La pérdida logarítmica se utiliza para medir la confianza de un modelo al hacer predicciones y penaliza más las predicciones incorrectas hechas con alta confianza. Aquí, la confianza se refiere a la seguridad que tiene el modelo sobre su predicción.
Evaluación multi-etiqueta: En las tareas multi-etiqueta, las métricas se promedian entre las etiquetas para reflejar el rendimiento general del modelo.
Aplicación de la exactitud, la precisión y la exhaustividad en la visión artificial
Ahora que tenemos una comprensión más clara de la exactitud, la precisión y la exhaustividad, veamos cómo se aplican estas métricas en la visión artificial.
Los modelos de visión artificial como Ultralytics YOLO11 admiten tareas como la detección de objetos, donde el modelo identifica qué objetos están presentes en una imagen y los localiza mediante cuadros delimitadores. Cada predicción incluye tanto la etiqueta del objeto como su posición, lo que hace que la evaluación sea más compleja que simplemente comprobar si una etiqueta es correcta.
Fig. 5. Un ejemplo del uso de Ultralytics YOLO11 para la detección de objetos. (Fuente)
Considere una aplicación de venta minorista donde se utilizan cámaras para rastrear automáticamente los productos en los estantes. Un modelo de detección de objetos podría identificar artículos como cajas de cereales, latas de refrescos o botellas de agua y marcar sus posiciones.
En este caso, la precisión nos indica cuántos de los artículos detectados son realmente correctos. Una alta precisión significa que el sistema evita los falsos positivos, como etiquetar una sombra o un objeto de fondo como un producto. El recall muestra cuántos de los productos reales en el estante logró detectar el modelo. Un alto recall significa que se pierden menos artículos, lo cual es fundamental para un conteo de inventario preciso.
La exactitud aún puede proporcionar una medida general de corrección, pero en este tipo de entorno, incluso la falta de algunos productos o la detección de artículos que no están ahí puede tener un gran impacto en la gestión de inventario. Por eso, los desarrolladores analizan la precisión, la exhaustividad y la exactitud en conjunto para garantizar que el sistema sea fiable y práctico para su uso en el mundo real.
Exactitud, precisión y exhaustividad: puntos clave
La exactitud, la precisión y la exhaustividad muestran diferentes aspectos del rendimiento de un modelo de aprendizaje automático. Confiar en una sola métrica puede ser engañoso.
Las herramientas y métricas como la matriz de confusión, las curvas de precisión-recall y la puntuación F1 ayudan a revelar las ventajas y desventajas, y a orientar las decisiones sobre cómo realizar mejoras en el modelo de ML. Al elegir la combinación correcta de métricas para una solución de IA específica, puede asegurarse de que los modelos sean precisos, fiables y eficaces en aplicaciones del mundo real.