O que é a Exatidão vs. Precisão vs. Recuperação na aprendizagem automática

O aprendizado de máquina (ML) é um ramo da inteligência artificial (IA) que se concentra na criação de sistemas que aprendem com dados. Ele desempenha um papel central em muitas outras áreas da IA, incluindo visão computacional, onde as máquinas interpretam imagens, e processamento de linguagem natural, onde elas entendem e geram linguagem humana.

Frequentemente, esses modelos de IA usam técnicas de aprendizagem profunda para fazer previsões a partir de dados. Embora esses sistemas possam ser altamente eficazes, nem sempre produzem previsões corretas. Algumas saídas podem ser precisas, enquanto outras falham o alvo.

Saber como esses erros ocorrem é uma parte fundamental da avaliação do desempenho de um modelo. Para medir o desempenho, podemos usar métricas de avaliação de modelo.

As métricas de avaliação comuns incluem precisão (correção geral), precisão (confiabilidade das previsões positivas) e recall (quão bem o modelo identifica os positivos reais). Elas podem parecer semelhantes à primeira vista, mas cada uma se concentra em uma parte diferente do comportamento de um modelo.

Neste artigo, analisaremos mais de perto cada uma dessas métricas de desempenho do modelo de IA. Também exploraremos como elas se relacionam entre si e como escolher a certa para seu caso de uso. Vamos começar!

As métricas de avaliação de modelo são importantes no aprendizado de máquina

Um modelo de aprendizado de máquina pode parecer estar funcionando bem no início. Mas sem as métricas de avaliação corretas, é difícil entender o quão precisos são seus resultados. Essas métricas dão estrutura à avaliação do modelo e ajudam a responder a uma pergunta fundamental: As previsões do modelo são úteis e confiáveis para uma determinada tarefa?

Métricas como precisão (accuracy), precisão (precision) e recall oferecem aos desenvolvedores de IA uma maneira clara de medir o quão bem um modelo está funcionando. Por exemplo, ao comparar diferentes modelos, essas métricas possibilitam ver qual tem o melhor desempenho para uma tarefa específica. Elas ajudam a avaliar o desempenho e orientam a escolha do modelo que melhor se adapta aos objetivos de um projeto de IA.

Fig 1. Fluxo de trabalho de treinamento e avaliação do modelo (Fonte)

‍

Essas métricas também tornam as comparações de desempenho mais objetivas. Em vez de confiar em palpites ou observações incompletas, elas fornecem insights mensuráveis sobre como um modelo se comporta em diferentes situações. Ao fazer isso, elas destacam quais aspectos do desempenho são mais importantes em cada contexto.

Por exemplo, a escolha da métrica geralmente depende da aplicação. Em aplicações de IA para a área da saúde, o recall é importante porque o objetivo é identificar o maior número possível de casos positivos, mesmo que alguns negativos sejam sinalizados erroneamente. Em contrapartida, um filtro de spam de e-mail pode priorizar a precisão para evitar marcar incorretamente e-mails legítimos como spam.

A matriz de confusão: a base das métricas de classificação

A matriz de confusão é uma tabela dois por dois que é fundamental para avaliar modelos de IA. Ela organiza as previsões em quatro categorias, comparando os resultados reais com os resultados previstos (as respostas que o modelo fornece).

Essa comparação fornece uma visão detalhada do desempenho do modelo. Ela forma a base para as principais métricas de avaliação, como precisão e recall, que são calculadas diretamente a partir dos valores na matriz.

As linhas da tabela representam as classes reais, e as colunas representam as classes previstas. Cada célula mostra a contagem de resultados nessa categoria. Simplificando, ela mostra quantas previsões estavam corretas e os tipos de erros que o modelo cometeu.

A matriz de confusão é especialmente útil quando os dados são desequilibrados, o que significa que algumas categorias têm muito mais exemplos do que outras. Também é útil quando diferentes tipos de erros acarretam custos diferentes.

Por exemplo, na detecção de fraudes, detectar atividades fraudulentas é fundamental, mas sinalizar incorretamente transações reais também pode causar problemas. A matriz deixa claro com que frequência cada tipo de erro acontece.

Elementos da matriz de confusão

Aqui está uma visão geral dos diferentes elementos em uma matriz de confusão:

Verdadeiro positivo (VP): Quando o modelo prevê corretamente uma instância positiva, ele é registrado como um verdadeiro positivo. Por exemplo, um modelo de visão computacional classifica corretamente um veículo em uma imagem.
Verdadeiro negativo (VN): Um verdadeiro negativo ocorre quando o modelo identifica corretamente uma instância negativa. Por exemplo, um classificador de e-mail marca uma mensagem normal como não sendo spam.
Falso positivo (FP): O modelo gera um falso positivo quando prevê incorretamente um resultado positivo para uma instância que é realmente negativa. Também conhecido como Erro do Tipo I, isso pode acontecer quando um sistema de detecção de fraude sinaliza uma transação válida como fraudulenta.
Falso negativo (FN): Um falso negativo é registado quando o modelo não consegue detect um caso positivo e o prevê incorretamente como negativo. Também designado por erro do tipo II, pode ocorrer quando uma ferramenta de diagnóstico não detecta uma doença num doente que está efetivamente doente.

Fig 2. Os elementos de uma matriz de confusão (Fonte)

‍

Representação visual e interpretação da matriz de confusão

Uma matriz de confusão é exibida em um formato de grade. O eixo vertical mostra as classes reais e o eixo horizontal mostra as classes previstas. As previsões corretas aparecem ao longo da diagonal, representando verdadeiros positivos e verdadeiros negativos.

Os erros ficam fora da diagonal, cobrindo falsos positivos e falsos negativos. Essa estrutura facilita a identificação de pontos fortes e fracos.

O que é precisão em machine learning?

Acurácia é uma das métricas mais amplamente utilizadas para avaliar o desempenho de um modelo de aprendizado de máquina. Ela mede com que frequência as previsões estão corretas em todas as classes. Em outras palavras, responde a uma pergunta simples: de todas as previsões que o modelo de IA fez, quantas estavam corretas?

A fórmula para a precisão (accuracy) é o número de previsões corretas (que inclui verdadeiros positivos e verdadeiros negativos) dividido pelo número total de previsões. A precisão é simples de calcular e fácil de entender, o que a torna um ponto de partida comum na avaliação de modelos.

Geralmente, a precisão é fiável quando se lida com conjuntos de dados equilibrados. No entanto, a precisão pode muitas vezes ser enganadora em conjuntos de dados desequilibrados em que uma classe domina as outras. Um modelo que preveja sempre a classe maioritária pode atingir uma pontuação de precisão elevada, mas não conseguir detect outras classes minoritárias.

Por exemplo, num conjunto de dados de imagens em que apenas algumas imagens contêm peões, um modelo que preveja "nenhum peão" para todas as imagens pode ainda assim atingir uma precisão elevada, mas falhar completamente a detect dos peões reais.

Isso ocorre porque a precisão por si só não mostra que tipos de erros um modelo comete ou com que frequência eles acontecem. É por isso que é importante também analisar métricas como precisão e recall para entender completamente o quão bem um modelo de IA funciona.

Análise detalhada da precisão: Minimizando alarmes falsos

A Precisão é uma métrica de avaliação fundamental que mede a exatidão das previsões positivas de um modelo. Ela responde à pergunta: De todas as instâncias previstas como positivas, quantas estavam corretas?

A fórmula da precisão é o número de verdadeiros positivos dividido pela soma dos verdadeiros positivos e falsos positivos. É particularmente importante quando uma previsão positiva seria dispendiosa se se revelasse errada.

Fig. 3. Comparando precisão e acurácia. (Fonte)

‍

Por exemplo, na detecção de fraudes, um modelo com baixa precisão pode sinalizar muitas transações válidas como fraudulentas, criando problemas desnecessários para usuários e equipes de suporte. Um modelo com alta precisão reduz esse risco, garantindo que as transações sinalizadas tenham maior probabilidade de serem fraudes reais.

Embora uma alta precisão seja boa, os modelos que se concentram demais nela podem tornar-se muito seletivos, perdendo casos positivos reais. É por isso que a métrica de precisão é frequentemente verificada juntamente com o recall para manter o desempenho equilibrado.

O que é recall?

A recuperação é uma métrica utilizada para medir a capacidade de um modelo identificar casos positivos efectivos. É conhecida como sensibilidade ou taxa positiva verdadeira e responde à pergunta: De todas as instâncias positivas reais, quantas foram detect corretamente pelo modelo?

A fórmula para recall (revocação) é o número de verdadeiros positivos dividido pela soma de verdadeiros positivos e falsos negativos. Uma alta pontuação de recall mostra que o modelo está capturando a maioria dos casos positivos reais nos dados.

A recolha é essencial em sectores como o dos cuidados de saúde, onde a não deteção detect uma doença pode atrasar o tratamento e colocar os doentes em risco. Mesmo que alguns casos negativos sejam incorretamente assinalados, a identificação de todos os casos verdadeiros continua a ser a principal prioridade.

No entanto, modelos que se concentram apenas na revocação podem sinalizar muitos falsos positivos, o que diminui a precisão e prejudica a eficiência geral do modelo. Equilibrar revocação e precisão é crucial para um desempenho confiável do modelo de IA.

O ato de equilibrar: Troca entre precisão e recall

Precisão e recall geralmente se movem em direções opostas. Quando um melhora, o outro pode diminuir. Essa compensação é um desafio comum em tarefas de aprendizado de máquina.

Um modelo de alta precisão prevê algo como positivo apenas quando tem certeza. Isso reduz os alarmes falsos, mas pode perder positivos reais, o que diminui o recall. Um modelo que tenta capturar todos os positivos aumenta o recall, mas corre o risco de mais alarmes falsos, o que diminui a precisão.

Esta compensação torna-se mais clara quando se ajusta o limiar de decisão do modelo. O limiar é o ponto de corte que um sistema usa para transformar uma pontuação ou probabilidade numa ação ou rótulo. Diminuir o limiar faz com que o sistema aja positivamente com mais frequência, o que pode aumentar o recall, mas pode reduzir a precisão. Aumentar o limiar tem o efeito oposto: o modelo prevê menos positivos, a precisão melhora, mas o recall geralmente diminui.

Digamos que está a trabalhar na deteção de spam. O modelo tem de equilibrar o risco de deixar o spam entrar na caixa de entrada com o risco de bloquear e-mails reais. Um filtro rigoroso pode ainda deixar passar algum spam, enquanto um mais tolerante pode bloquear acidentalmente mensagens legítimas. O equilíbrio certo depende do caso de uso e do custo de cada tipo de erro.

A importância da curva de precisão-recall

A curva de precisão-recall ou curva PR mostra como a precisão e o recall mudam à medida que o limiar de decisão do modelo muda. Cada ponto representa uma diferente compensação entre os dois. A curva PR é especialmente útil para conjuntos de dados desequilibrados, onde uma classe é muito menos frequente.

Ele também fornece insights mais significativos do que a curva ROC (Receiver Operating Characteristic), que também mostra o quão bem um modelo separa positivos de negativos em diferentes limiares de decisão. Um modelo com alta precisão e alta revocação terá uma curva de precisão-revocação que permanece perto do canto superior direito, o que geralmente é o ideal.

Apresentando o F1-score: Uma métrica combinada para equilíbrio

O F1-score fornece um único valor que captura o equilíbrio entre precisão e recall. O F1-score é calculado como duas vezes o produto da precisão e do recall, dividido pela soma da precisão e do recall. É útil quando tanto os falsos positivos quanto os falsos negativos são importantes, e é útil quando se trabalha com conjuntos de dados desequilibrados ou quando é necessária uma visão equilibrada do desempenho do modelo.

Fig 4. Cálculo do F1-score usando precisão e recall (Source)

‍

Além da acurácia, precisão e recall

Embora a precisão, a exatidão e a revocação sejam essenciais, outras métricas oferecem insights adicionais com base no tipo de modelo e nas características do conjunto de dados.

Aqui estão algumas métricas comumente usadas que ajudam a avaliar diferentes aspectos do desempenho:

Especificidade: Mede o quão bem o modelo identifica os negativos reais. É útil quando evitar falsos positivos é importante.
AUC: AUC, ou Área Sob a Curva, fornece uma única pontuação que reflete o quão bem o modelo consegue distinguir entre classes.
Log loss: Log loss é usado para medir o quão confiante um modelo está ao fazer previsões e dá mais penalidade a previsões erradas feitas com alta confiança. Aqui, confiança refere-se ao quão seguro o modelo está sobre sua previsão.
Avaliação multi-label: Em tarefas multi-label, as métricas são calculadas em média entre os labels para refletir o desempenho geral do modelo.

Aplicando acurácia, precisão e recall em visão computacional

Agora que temos uma compreensão mais clara de acurácia, precisão e recall, vamos percorrer como essas métricas são aplicadas na visão computacional.

Modelos de visão por computador como Ultralytics YOLO11 suportam tarefas como a deteção de objectos, em que o modelo identifica que objectos estão presentes numa imagem e localiza-os utilizando caixas delimitadoras. Cada previsão inclui tanto a etiqueta do objeto como a sua posição, o que torna a avaliação mais complexa do que simplesmente verificar se uma etiqueta está correta.

Fig. 5. Um exemplo de utilização do Ultralytics YOLO11 para a deteção de objectos.(Fonte)

‍

Considere uma aplicação de retalho em que as câmaras são utilizadas para track automaticamente os produtos nas prateleiras. Um modelo de deteção de objectos pode identificar itens como caixas de cereais, latas de refrigerantes ou garrafas de água e marcar as suas posições.

Neste caso, a precisão indica-nos quantos dos itens detectados estão realmente corretos. Uma precisão elevada significa que o sistema evita falsos positivos, como rotular uma sombra ou um objeto de fundo como um produto. A recuperação mostra quantos dos produtos reais na prateleira o modelo conseguiu detect. Uma elevada recuperação significa que menos itens são perdidos, o que é fundamental para contagens de inventário exactas.

A precisão ainda pode fornecer uma medida geral de correção, mas nesse tipo de cenário, perder até mesmo alguns produtos ou detectar itens que não estão lá pode ter um grande impacto no gerenciamento de estoque. É por isso que os desenvolvedores analisam precisão, recall e acurácia juntos para garantir que o sistema seja confiável e prático para uso no mundo real.

Precisão, precisão e recall: Principais conclusões

Precisão, precisão e recall mostram diferentes aspectos do desempenho de um modelo de aprendizado de máquina. Confiar em apenas uma métrica pode ser enganoso.

Ferramentas e métricas como a matriz de confusão, as curvas de precisão-recall e o F1-score ajudam a revelar trade-offs e a orientar as decisões sobre como fazer melhorias no modelo de ML. Ao escolher a combinação certa de métricas para uma solução de IA específica, pode garantir que os modelos são precisos, fiáveis e eficazes em aplicações do mundo real.

Explore nossa crescente comunidade! Consulte nosso repositório GitHub para saber mais sobre IA. Pronto para iniciar seus projetos de visão computacional? Dê uma olhada em nossas opções de licenciamento. Descubra a IA na agricultura e a Vision AI em robótica visitando nossas páginas de soluções!

Precisão vs. precisão vs. recall em aprendizado de máquina

As métricas de avaliação de modelo são importantes no aprendizado de máquina

A matriz de confusão: a base das métricas de classificação

Elementos da matriz de confusão

Representação visual e interpretação da matriz de confusão

O que é precisão em machine learning?

Análise detalhada da precisão: Minimizando alarmes falsos

O que é recall?

O ato de equilibrar: Troca entre precisão e recall

A importância da curva de precisão-recall

Apresentando o F1-score: Uma métrica combinada para equilíbrio

Além da acurácia, precisão e recall

Aplicando acurácia, precisão e recall em visão computacional

Precisão, precisão e recall: Principais conclusões

Leia mais nesta categoria

O que é a correspondência de imagens na IA de visão? Uma breve introdução

Uma introdução ao domínio emergente da IA neuro-simbólica

Dos bits aos qubits: Como a otimização quântica está a remodelar a IA

Vamos construir o futuro
da IA juntos!

Precisão vs. precisão vs. recall em aprendizado de máquina

As métricas de avaliação de modelo são importantes no aprendizado de máquina

A matriz de confusão: a base das métricas de classificação

Elementos da matriz de confusão

Representação visual e interpretação da matriz de confusão

O que é precisão em machine learning?

Análise detalhada da precisão: Minimizando alarmes falsos

O que é recall?

O ato de equilibrar: Troca entre precisão e recall

A importância da curva de precisão-recall

Apresentando o F1-score: Uma métrica combinada para equilíbrio

Além da acurácia, precisão e recall

Aplicando acurácia, precisão e recall em visão computacional

Precisão, precisão e recall: Principais conclusões

Leia mais nesta categoria

O que é a correspondência de imagens na IA de visão? Uma breve introdução

Uma introdução ao domínio emergente da IA neuro-simbólica

Dos bits aos qubits: Como a otimização quântica está a remodelar a IA

Vamos construir o futuro da IA juntos!

Vamos construir o futuro
da IA juntos!