Glosario

Puntuación F1

Descubre la importancia de la puntuación F1 en el aprendizaje automático. Aprende cómo equilibra la precisión y la recuperación para una evaluación óptima del modelo.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

La puntuación F1 es una métrica muy utilizada en el aprendizaje automático (AM) y la recuperación de información para evaluar el rendimiento de los modelos de clasificación binaria. Proporciona una única puntuación que equilibra otras dos métricas importantes: la precisión y la recuperación. Este equilibrio hace que la Puntuación F1 sea especialmente valiosa en situaciones en las que la distribución de las clases es desigual (conjuntos de datos desequilibrados) o cuando tanto los falsos positivos como los falsos negativos conllevan costes significativos. Se calcula como la media armónica de la precisión y la recuperación, lo que le da un rango entre 0 y 1, donde 1 significa precisión y recuperación perfectas.

Comprender la precisión y la recuperación

Para comprender la Puntuación F1, es esencial entender sus componentes:

  • Precisión: Mide la exactitud de las predicciones positivas. Responde a la pregunta "De todas las instancias que el modelo predijo como positivas, ¿cuántas fueron realmente positivas?" Una precisión alta significa que el modelo comete pocos errores falsos positivos.
  • Recall (Sensibilidad): Mide la capacidad del modelo para identificar todos los casos positivos reales. Responde a la pregunta "De todos los casos positivos reales, ¿cuántos identificó correctamente el modelo?" Una recuperación alta significa que el modelo comete pocos errores falsos negativos.

La puntuación F1 combina ambas calculando su media armónica. A diferencia de la media simple, la media armónica penaliza más los valores extremos, lo que significa que un modelo debe obtener unos resultados razonablemente buenos tanto en precisión como en recuperación para conseguir una puntuación F1 alta.

¿Por qué utilizar la puntuación F1?

Aunque la precisión (la proporción de predicciones correctas en general) es una métrica común, puede ser engañosa, especialmente con conjuntos de datos desequilibrados. Por ejemplo, si sólo el 1% de los puntos de datos pertenecen a la clase positiva, un modelo que predice todo como negativo alcanza una precisión del 99%, pero fracasa totalmente en la identificación de la clase positiva.

La puntuación F1 aborda este problema centrándose en el rendimiento de la clase positiva mediante la precisión y la recuperación. Es preferible cuando

  1. El desequilibrio de clases está presente: Proporciona una evaluación mejor que la precisión cuando una clase supera ampliamente a la otra.
  2. Tanto los Falsos Positivos como los Falsos Negativos son importantes: Los escenarios en los que es crucial minimizar ambos tipos de errores se benefician del equilibrio de la Puntuación F1. Elegir entre optimizar la precisión o la recuperación a menudo implica un compromiso; la puntuación F1 ayuda a encontrar un modelo que equilibre este compromiso entre precisión y recuperación.

F1-Score en acción: Ejemplos reales

La puntuación F1 es fundamental en diversas aplicaciones de Inteligencia Artificial (IA):

  1. Análisis de imágenes médicas para la detección de enfermedades: Considera un modelo de IA diseñado para detectar tumores cancerosos a partir de escáneres mediante visión por ordenador (VC).

    • Un falso negativo (bajo recuerdo) significa no detectar el cáncer cuando está presente, lo que puede tener graves consecuencias para el paciente.
    • Un falso positivo (baja precisión) significa diagnosticar un cáncer cuando no lo hay, lo que conlleva un estrés innecesario, costes y más pruebas invasivas.
    • La puntuación F1 ayuda a evaluar modelos como los utilizados en las soluciones sanitarias de IA, garantizando un equilibrio entre la detección de casos reales (memoria) y la evitación de diagnósticos erróneos (precisión). El entrenamiento de estos modelos puede implicar conjuntos de datos como el de detección de tumores cerebrales.
  2. Filtrado de correo basura: Los servicios de correo electrónico utilizan modelos de clasificación para identificar el spam.

    • Se necesita una alta recuperación para capturar la mayor cantidad posible de spam. El spam no detectado (falso negativo) molesta a los usuarios.
    • Una alta precisión es crucial para evitar marcar correos legítimos ("jamón") como spam (falso positivo). Clasificar erróneamente un correo electrónico importante puede ser muy problemático.
    • La puntuación F1 proporciona una medida adecuada para evaluar la eficacia global del filtro antispam, equilibrando la necesidad de filtrar la basura sin perder los mensajes importantes. Para ello se utilizan técnicas del Procesamiento del Lenguaje Natural (PLN).

Puntuación F1 frente a métricas relacionadas

Es importante distinguir la Puntuación F1 de otras métricas de evaluación:

  • Precisión: Mide la corrección general, pero puede ser poco fiable para clases desequilibradas.
  • Precisión y Recall: La puntuación F1 las combina. Utiliza la precisión cuando minimizar los falsos positivos sea clave; utiliza la recuperación cuando minimizar los falsos negativos sea primordial.
  • Precisión media promedio (mAP): Una métrica primaria para tareas de detección de objetos, como las realizadas por Ultralytics YOLO mAP promedia la precisión en varios niveles de recuperación y, a menudo, en varias clases de objetos y umbrales de intersección sobre unión (IoU). Aunque está relacionado con la precisión y la recuperación, el mAP evalúa específicamente el rendimiento de la detección de objetos, teniendo en cuenta tanto la clasificación como la localización. Puedes explorar las métricas de rendimiento de YOLO para obtener más detalles. Consulta comparaciones de modelos como YOLO11 frente a YOLOv8, que a menudo se basan en mAP.
  • Intersección sobre Unión (IoU): Mide el solapamiento entre un cuadro delimitador previsto y el cuadro delimitador real en la detección de objetos. Evalúa la calidad de la localización, no el rendimiento de la clasificación directamente, como la Puntuación F1.
  • Matriz de confusión: Una tabla que resume el rendimiento de la clasificación, mostrando los Verdaderos Positivos, los Verdaderos Negativos, los Falsos Positivos y los Falsos Negativos, a partir de los cuales se obtienen la Precisión, la Recuperación, la Exactitud y la Puntuación F1.

Puntuación F1 en el ecosistema Ultralytics

Dentro del ecosistema Ultralytics , mientras que mAP es el estándar para evaluar modelos de detección de objetos como YOLO11la puntuación F1 puede ser relevante cuando se evalúan las capacidades de la tarea de clasificación o se valora el rendimiento en una clase específica dentro de un problema de detección o segmentación, especialmente si el desequilibrio de clases es motivo de preocupación. Herramientas como Ultralytics HUB facilitan el entrenamiento de modelos personalizados y el seguimiento de diversas métricas de rendimiento durante la evaluación del modelo. Comprender métricas como la puntuación F1 ayuda a ajustar los modelos a necesidades específicas mediante técnicas como el ajuste de hiperparámetros. Marcos como PyTorch y bibliotecas como Scikit-learn proporcionan implementaciones para calcular la Puntuación F1.

Leer todo