F1-Score
Aprende cómo la puntuación F1 equilibra la precisión y la exhaustividad (recall) para evaluar modelos de aprendizaje automático. Descubre cómo optimizar el rendimiento de Ultralytics YOLO26 para obtener una mejor precisión.
La Puntuación F1 es una métrica de rendimiento fundamental en aprendizaje automático que combina precisión y exhaustividad (recall) en una única media armónica. Es particularmente útil para evaluar modelos de clasificación donde el conjunto de datos está desequilibrado o donde los falsos positivos y falsos negativos conllevan costes diferentes. A diferencia de la precisión simple, que puede resultar engañosa si una clase domina el conjunto de datos, la Puntuación F1 ofrece una visión más equilibrada de la capacidad de un modelo para identificar instancias relevantes correctamente mientras minimiza los errores. Al penalizar los valores extremos, asegura que solo se obtenga una puntuación alta cuando tanto la precisión como la exhaustividad son razonablemente elevadas, lo que la convierte en una métrica esencial en campos que van desde el diagnóstico médico hasta la recuperación de información.
Link to this sectionPor qué es importante la Puntuación F1 en el aprendizaje automático#
En muchos escenarios del mundo real, conocer simplemente el porcentaje de predicciones correctas (precisión) no es suficiente. Por ejemplo, en detección de anomalías, los casos normales superan con creces a las anomalías. Un modelo que prediga "normal" para cada entrada podría alcanzar un 99 % de precisión, pero sería inútil para detectar problemas reales. La Puntuación F1 soluciona esto equilibrando dos métricas enfrentadas:
- Precisión: Mide la calidad de las predicciones positivas. Responde a la pregunta: "De todas las instancias que el modelo etiquetó como positivas, ¿cuántas fueron realmente positivas?"
- Exhaustividad (Recall): Mide la cantidad de predicciones positivas. Responde a: "De todas las instancias positivas reales, ¿cuántas identificó correctamente el modelo?"
Dado que a menudo existe un compromiso (mejorar la precisión tiende a reducir la exhaustividad y viceversa), la Puntuación F1 actúa como una métrica unificada para encontrar un punto de equilibrio óptimo. Esto es crucial cuando se ajustan modelos mediante optimización de hiperparámetros para garantizar un rendimiento robusto en condiciones diversas.
Link to this sectionAplicaciones en el mundo real#
La utilidad de la Puntuación F1 se extiende a diversas industrias donde el coste del error es significativo.
- Medical Diagnostics: In AI in healthcare, specifically for tasks like tumor detection, a false negative (missing a tumor) is life-threatening, while a false positive (flagging benign tissue) causes unnecessary anxiety. The F1-Score helps researchers optimize models like YOLO26 to ensure that the system is sensitive enough to catch diseases without overwhelming doctors with false alarms.
- Recuperación de Información y Búsqueda: Los motores de búsqueda y los sistemas de clasificación de documentos utilizan la Puntuación F1 para evaluar la relevancia. Los usuarios quieren ver todos los documentos relevantes (alta exhaustividad), pero no quieren tener que lidiar con resultados irrelevantes (alta precisión). Una Puntuación F1 alta indica que el motor está recuperando eficazmente la información correcta sin contenido no deseado.
- Spam Filtering: Email services use text classification to segregate spam. The system must catch spam emails (recall) but crucially must not label important work emails as junk (precision). The F1-Score serves as the primary benchmark for these filters.
Link to this sectionCálculo de la Puntuación F1 con Ultralytics#
Los marcos de trabajo modernos de visión artificial simplifican el cálculo de estas métricas. Al entrenar modelos de detección de objetos, la Puntuación F1 se calcula automáticamente durante la fase de validación. La Plataforma Ultralytics visualiza estas métricas en gráficos en tiempo real, lo que permite a los usuarios ver la curva de la Puntuación F1 frente a diferentes umbrales de confianza.
Aquí te explicamos cómo puedes acceder a las métricas de validación, incluidos los componentes de la Puntuación F1, mediante la API de Python:
from ultralytics import YOLO
# Load a pre-trained YOLO26 model
model = YOLO("yolo26n.pt")
# Validate the model on a dataset (metrics are computed automatically)
# This returns a validator object containing precision, recall, and mAP
metrics = model.val(data="coco8.yaml")
# Print the Mean Average Precision (mAP50-95), which correlates with F1 performance
print(f"mAP50-95: {metrics.box.map}")
# Access precision and recall arrays to manually inspect the balance
print(f"Precision: {metrics.box.p}")
print(f"Recall: {metrics.box.r}")Link to this sectionPuntuación F1 frente a métricas relacionadas#
Entender en qué se diferencia la Puntuación F1 de otros criterios de evaluación es esencial para seleccionar la herramienta adecuada para tu proyecto.
- Diferencia con la precisión (Accuracy): La precisión trata todos los errores por igual. La Puntuación F1 es superior para conjuntos de datos desequilibrados porque se centra en el rendimiento de la clase positiva (la clase minoritaria de interés).
- Relación con mAP: La Precisión Media Promedio (mAP) es el estándar para comparar modelos de detección de objetos en todos los umbrales de confianza. Sin embargo, la Puntuación F1 se utiliza a menudo para determinar el umbral de confianza óptimo para el despliegue. Puedes elegir el umbral donde la curva F1 alcanza su punto máximo para desplegar tu aplicación.
- Matriz de Confusión: La matriz de confusión proporciona los recuentos brutos (Verdaderos Positivos, Falsos Positivos, etc.) a partir de los cuales se deriva la Puntuación F1. Aunque la matriz ofrece un detalle granular, la Puntuación F1 proporciona una única estadística resumida para una comparación rápida.
- ROC-AUC: El Área bajo la curva (AUC) mide la separabilidad en todos los umbrales. La Puntuación F1 es generalmente preferida sobre ROC-AUC cuando tienes una distribución de clases altamente sesgada (por ejemplo, en la detección de fraudes donde el fraude es poco frecuente).
Link to this sectionMejora de tu Puntuación F1#
Si tu modelo sufre de una Puntuación F1 baja, varias estrategias pueden ayudar. La aumentación de datos puede aumentar la variedad de ejemplos positivos, ayudando al modelo a generalizar mejor. Emplear aprendizaje por transferencia desde modelos base robustos permite a la red aprovechar características aprendidas previamente. Además, ajustar el umbral de confianza durante la inferencia puede desplazar manualmente el equilibrio entre precisión y exhaustividad para maximizar la Puntuación F1 para tu caso de uso específico.






