Glossário

Pontuação F1

Descobre a importância da pontuação F1 na aprendizagem automática! Aprende como equilibra a precisão e a recuperação para uma avaliação óptima do modelo.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

O F1-Score é uma métrica muito utilizada na aprendizagem automática (ML) e na recuperação de informações para avaliar o desempenho de modelos de classificação binária. Fornece uma pontuação única que equilibra duas outras métricas importantes: precisão e recuperação. Este equilíbrio torna o F1-Score particularmente valioso em situações em que a distribuição das classes é desigual (conjuntos de dados desequilibrados) ou quando tanto os falsos positivos como os falsos negativos têm custos significativos. É calculado como a média harmónica da precisão e da recuperação, o que lhe confere um intervalo entre 0 e 1, em que 1 significa precisão e recuperação perfeitas.

Compreender a precisão e a recuperação

Para compreenderes a pontuação F1, é essencial entenderes os seus componentes:

  • Precisão: Mede a exatidão das previsões positivas. Responde à pergunta: "De todas as instâncias que o modelo previu como positivas, quantas foram realmente positivas?" Uma precisão elevada significa que o modelo comete poucos erros de falsos positivos.
  • Recall (Sensibilidade): Mede a capacidade do modelo de identificar todas as instâncias positivas reais. Responde à pergunta: "De todas as instâncias positivas reais, quantas é que o modelo identificou corretamente?" Uma recuperação elevada significa que o modelo comete poucos erros falsos negativos.

O F1-Score combina estes dois calculando a sua média harmónica. Ao contrário de uma média simples, a média harmónica penaliza mais fortemente os valores extremos, o que significa que um modelo deve ter um desempenho razoavelmente bom tanto na precisão como na recuperação para obter uma F1-Score elevada.

Porquê utilizar o F1-Score?

Embora a precisão (a proporção de previsões corretas em geral) seja uma métrica comum, pode ser enganadora, especialmente com conjuntos de dados desequilibrados. Por exemplo, se apenas 1% dos pontos de dados pertencerem à classe positiva, um modelo que preveja tudo como negativo atinge uma precisão de 99%, mas falha totalmente na identificação da classe positiva.

O F1-Score resolve este problema, concentrando-se no desempenho da classe positiva através da precisão e da recuperação. É preferível quando:

  1. O desequilíbrio de classes está presente: Fornece uma avaliação melhor do que a precisão quando uma classe supera amplamente a outra.
  2. Tanto os falsos positivos como os falsos negativos são importantes: Cenários em que minimizar os dois tipos de erros é crucial se beneficiam do ato de equilíbrio do F1-Score. Escolher entre otimizar a precisão ou a recuperação geralmente envolve uma troca; o F1-Score ajuda a encontrar um modelo que equilibre essa troca de precisão-recuperação.

F1-Score em ação: Exemplos do mundo real

O F1-Score é fundamental em várias aplicações de Inteligência Artificial (IA):

  1. Análise de imagens médicas para deteção de doenças: Considera um modelo de IA concebido para detetar tumores cancerígenos a partir de exames utilizando a visão por computador (CV).

    • Um falso negativo (baixa rechamada) significa não detetar o cancro quando este está presente, o que pode ter consequências graves para o doente.
    • Um falso positivo (baixa precisão) significa diagnosticar um cancro quando este não existe, o que leva a stress desnecessário, custos e mais testes invasivos.
    • O F1-Score ajuda a avaliar modelos como os utilizados em soluções de IA para os cuidados de saúde, assegurando um equilíbrio entre a deteção de casos reais (recordação) e a prevenção de diagnósticos incorrectos (precisão). O treino desses modelos pode envolver conjuntos de dados como o conjunto de dados de deteção de tumores cerebrais.
  2. Filtragem de e-mails de spam: Os serviços de e-mail utilizam modelos de classificação para identificar spam.

    • É necessária uma elevada capacidade de recuperação para apanhar o máximo de spam possível. O spam não detectado (falso negativo) incomoda os utilizadores.
    • A elevada precisão é crucial para evitar a marcação de mensagens de correio eletrónico legítimas ("ham") como spam (falso positivo). A classificação incorrecta de um e-mail importante pode ser altamente problemática.
    • O F1-Score fornece uma medida adequada para avaliar a eficácia global do filtro de spam, equilibrando a necessidade de filtrar o lixo sem perder mensagens importantes. Para tal, utiliza técnicas de processamento da linguagem natural (PNL).

F1-Score vs. métricas relacionadas

É importante distinguir o F1-Score de outras métricas de avaliação:

  • Precisão: Mede a correção global, mas pode não ser fiável para classes desequilibradas.
  • Precisão e Recuperação: O F1-Score combina-os. Utiliza a precisão quando a minimização de falsos positivos é fundamental; utiliza a recuperação quando a minimização de falsos negativos é primordial.
  • Precisão média média (mAP): Uma métrica principal para tarefas de deteção de objectos, como as realizadas pela Ultralytics YOLO O mAP calcula a média da precisão em vários níveis de recuperação e, frequentemente, em várias classes de objectos e limiares de Intersecção sobre União (IoU). Embora relacionado com a precisão e a recuperação, o mAP avalia especificamente o desempenho da deteção de objectos, considerando tanto a classificação como a localização. Podes explorar as métricas de desempenhoYOLO para obteres mais detalhes. Vê as comparações de modelos como YOLO11 vs YOLOv8 que muitas vezes dependem do mAP.
  • Intersecção sobre União (IoU): Mede a sobreposição entre uma caixa delimitadora prevista e a caixa delimitadora da verdade terrestre na deteção de objectos. Avalia a qualidade da localização e não o desempenho da classificação diretamente como o F1-Score.
  • Matriz de confusão: Uma tabela que resume o desempenho da classificação, mostrando os Verdadeiros Positivos, os Verdadeiros Negativos, os Falsos Positivos e os Falsos Negativos, da qual derivam a Precisão, a Recuperação, a Exatidão e a Pontuação F1.

F1-Score no ecossistema Ultralytics

No ecossistema Ultralytics , enquanto o mAP é o padrão para avaliar modelos de deteção de objectos como o YOLO11o F1-Score pode ser relevante ao avaliar os recursos da tarefa de classificação ou ao avaliar o desempenho em uma classe específica dentro de um problema de deteção ou segmentação, especialmente se o desequilíbrio de classe for uma preocupação. Ferramentas como o Ultralytics HUB facilitam o treino de modelos personalizados e o acompanhamento de várias métricas de desempenho durante a avaliação do modelo. A compreensão de métricas como o F1-Score ajuda a afinar os modelos para necessidades específicas, utilizando técnicas como a afinação de hiperparâmetros. Estruturas como PyTorch e bibliotecas como Scikit-learn fornecem implementações para calcular o F1-Score.

Lê tudo