Glossário

Pontuação F1

Descubra a importância da pontuação F1 na aprendizagem automática! Saiba como equilibra a precisão e a recuperação para uma avaliação óptima do modelo.

O F1-Score é uma métrica amplamente utilizada na aprendizagem automática para avaliar o desempenho de um modelo de classificação. Combina de forma inteligente duas outras métricas importantes - Precisão e Recuperação - numúnico valor. Como média harmónica da precisão e da recuperação, o F1-Score fornece uma medida mais equilibrada do desempenho de um modelo, especialmente quando se lida com conjuntos de dados desequilibrados em que uma classe é muito mais frequente do que a outra. Nesses cenários, uma pontuação de precisão elevada pode ser enganadora, mas o F1-Score dá uma melhor noção da eficácia do modelo na identificação correta da classe minoritária.

Para compreender plenamente o F1-Score, é essencial entender os seus componentes. A precisão responde à pergunta: "De todas as previsões positivas feitas pelo modelo, quantas estavam realmente corretas?" A recuperação, por outro lado, responde à pergunta: "De todas as instâncias positivas reais, quantas o modelo identificou corretamente?" O F1-Score harmoniza estas duas métricas, punindo os modelos que se destacam numa métrica à custa significativa da outra. Um F1-Score atinge o seu melhor valor em 1 (precisão e recuperação perfeitas) e o seu pior em 0. Este equilíbrio é crucial em muitas aplicações do mundo real, onde tanto os falsos positivos como os falsos negativos têm custos significativos. O controlo desta métrica durante a formação do modelo é uma prática padrão nos MLOps.

F1-Score em ação: Exemplos do mundo real

A pontuação F1 é fundamental em várias aplicações de Inteligência Artificial (IA) em que as consequências de uma classificação incorrecta são graves:

  1. Análise de imagens médicas para deteção de doenças: Considere-se um modelo de IA concebido para detetar tumores cancerígenos a partir de exames utilizando a visão por computador (CV).

    • Um falso negativo (baixa rechamada) significa não detetar o cancro quando este está presente, o que pode ter consequências graves para o doente.
    • Um falso positivo (baixa precisão) significa diagnosticar um cancro quando este não existe, levando a stress desnecessário, custos e mais testes invasivos.
    • O F1-Score ajuda a avaliar modelos como os utilizados em soluções de IA para os cuidados de saúde, assegurando um equilíbrio entre a deteção de casos reais (recordação) e a prevenção de diagnósticos incorrectos (precisão). O treino desses modelos pode envolver conjuntos de dados como o conjunto de dados de deteção de tumores cerebrais.
  2. Filtragem de correio eletrónico de spam: Os serviços de correio eletrónico utilizam modelos de classificação para identificar o spam.

    • É necessária uma elevada capacidade de recuperação para apanhar o máximo de spam possível. O spam não detectado (um falso negativo) incomoda os utilizadores.
    • A elevada precisão é crucial para evitar a marcação de mensagens de correio eletrónico legítimas ("ham") como spam (um falso positivo). A classificação incorrecta de um correio eletrónico importante pode ser altamente problemática.
    • O F1-Score fornece uma medida adequada para avaliar a eficácia global do filtro de spam, equilibrando a necessidade de filtrar o lixo sem perder mensagens importantes. Isto envolve frequentemente técnicas de processamento da linguagem natural (PLN).

Como é que a pontuação de F1 difere de outras métricas

Compreender a distinção entre o F1-Score e outras métricas de avaliação é fundamental para selecionar a métrica certa para o seu projeto.

  • F1-Score vs. Precisão: A precisão é o rácio entre as previsões corretas e o número total de previsões. Embora seja simples de compreender, tem um desempenho fraco em problemas de classificação desequilibrados. A pontuação F1 é frequentemente preferida nestes casos porque se concentra no desempenho da classe positiva.
  • F1-Score vs. Precisão e Recuperação: O F1-Score combina Precisão e Recuperação numa única métrica. No entanto, dependendo do objetivo da aplicação, poderá querer otimizar um em detrimento do outro. Por exemplo, no controlo de segurança do aeroporto, maximizar a recuperação (encontrar todas as potenciais ameaças) é mais importante do que a precisão. Compreender esta troca entre precisão e recuperação é fundamental.
  • F1-Score vs. precisão média (mAP): Enquanto o F1-Score avalia o desempenho da classificação num limiar de confiança específico, o mAP é a métrica padrão para tarefas de deteção de objectos. A pontuação mAP resume a curva Precisão-Recall em diferentes limiares, fornecendo uma avaliação mais abrangente da capacidade de um modelo para localizar e classificar objectos. Plataformas como o Ultralytics HUB ajudam a monitorizar estas métricas durante o desenvolvimento do modelo.
  • F1-Score vs. AUC (Area Under the Curve): A AUC é calculada a partir da curva ROC (Receiver Operating Characteristic ) e representa a capacidade de um modelo para distinguir entre classes em todos os limiares possíveis. O F1-Score, por outro lado, é calculado para um único limiar específico.

Embora o mAP seja a principal métrica para modelos de deteção de objectos como o Ultralytics YOLO11, o F1-Score é crucial para as tarefas de classificação de imagens que estes modelos também podem realizar. Uma sólida compreensão do F1-Score é vital para qualquer programador que trabalhe em problemas de classificação na aprendizagem profunda. Pode comparar diferentes desempenhos do modelo YOLO, que são frequentemente comparados em conjuntos de dados como o COCO.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Ligue-se, colabore e cresça com inovadores globais

Aderir agora
Ligação copiada para a área de transferência