Aprenda sobre Precisão, Exatidão e Recall em aprendizado de máquina. Explore a Matriz de Confusão, o Escore F1 e como usar essas métricas de avaliação vitais.

Aprenda sobre Precisão, Exatidão e Recall em aprendizado de máquina. Explore a Matriz de Confusão, o Escore F1 e como usar essas métricas de avaliação vitais.
O aprendizado de máquina (ML) é um ramo da inteligência artificial (IA) que se concentra na criação de sistemas que aprendem com dados. Ele desempenha um papel central em muitas outras áreas da IA, incluindo visão computacional, onde as máquinas interpretam imagens, e processamento de linguagem natural, onde elas entendem e geram linguagem humana.
Frequentemente, esses modelos de IA usam técnicas de aprendizagem profunda para fazer previsões a partir de dados. Embora esses sistemas possam ser altamente eficazes, nem sempre produzem previsões corretas. Algumas saídas podem ser precisas, enquanto outras falham o alvo.
Saber como esses erros ocorrem é uma parte fundamental da avaliação do desempenho de um modelo. Para medir o desempenho, podemos usar métricas de avaliação de modelo.
As métricas de avaliação comuns incluem precisão (correção geral), precisão (confiabilidade das previsões positivas) e recall (quão bem o modelo identifica os positivos reais). Elas podem parecer semelhantes à primeira vista, mas cada uma se concentra em uma parte diferente do comportamento de um modelo.
Neste artigo, analisaremos mais de perto cada uma dessas métricas de desempenho do modelo de IA. Também exploraremos como elas se relacionam entre si e como escolher a certa para seu caso de uso. Vamos começar!
Um modelo de aprendizado de máquina pode parecer estar funcionando bem no início. Mas sem as métricas de avaliação corretas, é difícil entender o quão precisos são seus resultados. Essas métricas dão estrutura à avaliação do modelo e ajudam a responder a uma pergunta fundamental: As previsões do modelo são úteis e confiáveis para uma determinada tarefa?
Métricas como precisão (accuracy), precisão (precision) e recall oferecem aos desenvolvedores de IA uma maneira clara de medir o quão bem um modelo está funcionando. Por exemplo, ao comparar diferentes modelos, essas métricas possibilitam ver qual tem o melhor desempenho para uma tarefa específica. Elas ajudam a avaliar o desempenho e orientam a escolha do modelo que melhor se adapta aos objetivos de um projeto de IA.
Essas métricas também tornam as comparações de desempenho mais objetivas. Em vez de confiar em palpites ou observações incompletas, elas fornecem insights mensuráveis sobre como um modelo se comporta em diferentes situações. Ao fazer isso, elas destacam quais aspectos do desempenho são mais importantes em cada contexto.
Por exemplo, a escolha da métrica geralmente depende da aplicação. Em aplicações de IA para a área da saúde, o recall é importante porque o objetivo é identificar o maior número possível de casos positivos, mesmo que alguns negativos sejam sinalizados erroneamente. Em contrapartida, um filtro de spam de e-mail pode priorizar a precisão para evitar marcar incorretamente e-mails legítimos como spam.
A matriz de confusão é uma tabela dois por dois que é fundamental para avaliar modelos de IA. Ela organiza as previsões em quatro categorias, comparando os resultados reais com os resultados previstos (as respostas que o modelo fornece).
Essa comparação fornece uma visão detalhada do desempenho do modelo. Ela forma a base para as principais métricas de avaliação, como precisão e recall, que são calculadas diretamente a partir dos valores na matriz.
As linhas da tabela representam as classes reais, e as colunas representam as classes previstas. Cada célula mostra a contagem de resultados nessa categoria. Simplificando, ela mostra quantas previsões estavam corretas e os tipos de erros que o modelo cometeu.
A matriz de confusão é especialmente útil quando os dados são desequilibrados, o que significa que algumas categorias têm muito mais exemplos do que outras. Também é útil quando diferentes tipos de erros acarretam custos diferentes.
Por exemplo, na detecção de fraudes, detectar atividades fraudulentas é fundamental, mas sinalizar incorretamente transações reais também pode causar problemas. A matriz deixa claro com que frequência cada tipo de erro acontece.
Aqui está uma visão geral dos diferentes elementos em uma matriz de confusão:
Uma matriz de confusão é exibida em um formato de grade. O eixo vertical mostra as classes reais e o eixo horizontal mostra as classes previstas. As previsões corretas aparecem ao longo da diagonal, representando verdadeiros positivos e verdadeiros negativos.
Os erros ficam fora da diagonal, cobrindo falsos positivos e falsos negativos. Essa estrutura facilita a identificação de pontos fortes e fracos.
Acurácia é uma das métricas mais amplamente utilizadas para avaliar o desempenho de um modelo de aprendizado de máquina. Ela mede com que frequência as previsões estão corretas em todas as classes. Em outras palavras, responde a uma pergunta simples: de todas as previsões que o modelo de IA fez, quantas estavam corretas?
A fórmula para a precisão (accuracy) é o número de previsões corretas (que inclui verdadeiros positivos e verdadeiros negativos) dividido pelo número total de previsões. A precisão é simples de calcular e fácil de entender, o que a torna um ponto de partida comum na avaliação de modelos.
Geralmente, a precisão é confiável ao lidar com conjuntos de dados equilibrados. No entanto, a precisão pode ser enganosa em conjuntos de dados desequilibrados, onde uma classe domina as outras. Um modelo que sempre prevê a classe majoritária ainda pode alcançar uma alta pontuação de precisão, falhando ao detectar outras classes minoritárias.
Por exemplo, em um conjunto de dados de imagem onde apenas algumas imagens contêm pedestres, um modelo que prevê “nenhum pedestre” para cada imagem ainda pode alcançar alta precisão, mas falhar completamente em detectar os pedestres reais.
Isso ocorre porque a precisão por si só não mostra que tipos de erros um modelo comete ou com que frequência eles acontecem. É por isso que é importante também analisar métricas como precisão e recall para entender completamente o quão bem um modelo de IA funciona.
A Precisão é uma métrica de avaliação fundamental que mede a exatidão das previsões positivas de um modelo. Ela responde à pergunta: De todas as instâncias previstas como positivas, quantas estavam corretas?
A fórmula da precisão é o número de verdadeiros positivos dividido pela soma dos verdadeiros positivos e falsos positivos. É particularmente importante quando uma previsão positiva seria dispendiosa se se revelasse errada.
Por exemplo, na detecção de fraudes, um modelo com baixa precisão pode sinalizar muitas transações válidas como fraudulentas, criando problemas desnecessários para usuários e equipes de suporte. Um modelo com alta precisão reduz esse risco, garantindo que as transações sinalizadas tenham maior probabilidade de serem fraudes reais.
Embora uma alta precisão seja boa, os modelos que se concentram demais nela podem tornar-se muito seletivos, perdendo casos positivos reais. É por isso que a métrica de precisão é frequentemente verificada juntamente com o recall para manter o desempenho equilibrado.
O Recall é uma métrica usada para medir o quão bem um modelo identifica casos positivos reais. É conhecido como sensibilidade ou taxa de verdadeiros positivos, e responde à pergunta: De todas as instâncias positivas reais, quantas o modelo detectou corretamente?
A fórmula para recall (revocação) é o número de verdadeiros positivos dividido pela soma de verdadeiros positivos e falsos negativos. Uma alta pontuação de recall mostra que o modelo está capturando a maioria dos casos positivos reais nos dados.
O Recall é essencial em setores como o da saúde, onde a falha na detecção de uma condição pode atrasar o tratamento e colocar os pacientes em risco. Mesmo que alguns casos negativos sejam sinalizados incorretamente, identificar todos os casos verdadeiros continua sendo a principal prioridade.
No entanto, modelos que se concentram apenas na revocação podem sinalizar muitos falsos positivos, o que diminui a precisão e prejudica a eficiência geral do modelo. Equilibrar revocação e precisão é crucial para um desempenho confiável do modelo de IA.
Precisão e recall geralmente se movem em direções opostas. Quando um melhora, o outro pode diminuir. Essa compensação é um desafio comum em tarefas de aprendizado de máquina.
Um modelo de alta precisão prevê algo como positivo apenas quando tem certeza. Isso reduz os alarmes falsos, mas pode perder positivos reais, o que diminui o recall. Um modelo que tenta capturar todos os positivos aumenta o recall, mas corre o risco de mais alarmes falsos, o que diminui a precisão.
Esta compensação torna-se mais clara quando se ajusta o limiar de decisão do modelo. O limiar é o ponto de corte que um sistema usa para transformar uma pontuação ou probabilidade numa ação ou rótulo. Diminuir o limiar faz com que o sistema aja positivamente com mais frequência, o que pode aumentar o recall, mas pode reduzir a precisão. Aumentar o limiar tem o efeito oposto: o modelo prevê menos positivos, a precisão melhora, mas o recall geralmente diminui.
Digamos que está a trabalhar na deteção de spam. O modelo tem de equilibrar o risco de deixar o spam entrar na caixa de entrada com o risco de bloquear e-mails reais. Um filtro rigoroso pode ainda deixar passar algum spam, enquanto um mais tolerante pode bloquear acidentalmente mensagens legítimas. O equilíbrio certo depende do caso de uso e do custo de cada tipo de erro.
A curva de precisão-recall ou curva PR mostra como a precisão e o recall mudam à medida que o limiar de decisão do modelo muda. Cada ponto representa uma diferente compensação entre os dois. A curva PR é especialmente útil para conjuntos de dados desequilibrados, onde uma classe é muito menos frequente.
Ele também fornece insights mais significativos do que a curva ROC (Receiver Operating Characteristic), que também mostra o quão bem um modelo separa positivos de negativos em diferentes limiares de decisão. Um modelo com alta precisão e alta revocação terá uma curva de precisão-revocação que permanece perto do canto superior direito, o que geralmente é o ideal.
O F1-score fornece um único valor que captura o equilíbrio entre precisão e recall. O F1-score é calculado como duas vezes o produto da precisão e do recall, dividido pela soma da precisão e do recall. É útil quando tanto os falsos positivos quanto os falsos negativos são importantes, e é útil quando se trabalha com conjuntos de dados desequilibrados ou quando é necessária uma visão equilibrada do desempenho do modelo.
Embora a precisão, a exatidão e a revocação sejam essenciais, outras métricas oferecem insights adicionais com base no tipo de modelo e nas características do conjunto de dados.
Aqui estão algumas métricas comumente usadas que ajudam a avaliar diferentes aspectos do desempenho:
Agora que temos uma compreensão mais clara de acurácia, precisão e recall, vamos percorrer como essas métricas são aplicadas na visão computacional.
Modelos de visão computacional como o Ultralytics YOLO11 suportam tarefas como a detecção de objetos, onde o modelo identifica quais objetos estão presentes em uma imagem e os localiza usando caixas delimitadoras. Cada previsão inclui tanto o rótulo do objeto quanto sua posição, o que torna a avaliação mais complexa do que simplesmente verificar se um rótulo está correto.
Considere uma aplicação de retalho onde as câmaras são usadas para rastrear automaticamente os produtos nas prateleiras. Um modelo de deteção de objetos pode identificar itens como caixas de cereais, latas de refrigerante ou garrafas de água e marcar as suas posições.
Nesse caso, a precisão nos diz quantos dos itens detectados estão realmente corretos. Alta precisão significa que o sistema evita falsos positivos, como rotular uma sombra ou objeto de fundo como um produto. O recall mostra quantos dos produtos reais na prateleira o modelo conseguiu detectar. Alto recall significa que menos itens são perdidos, o que é fundamental para contagens de estoque precisas.
A precisão ainda pode fornecer uma medida geral de correção, mas nesse tipo de cenário, perder até mesmo alguns produtos ou detectar itens que não estão lá pode ter um grande impacto no gerenciamento de estoque. É por isso que os desenvolvedores analisam precisão, recall e acurácia juntos para garantir que o sistema seja confiável e prático para uso no mundo real.
Precisão, precisão e recall mostram diferentes aspectos do desempenho de um modelo de aprendizado de máquina. Confiar em apenas uma métrica pode ser enganoso.
Ferramentas e métricas como a matriz de confusão, as curvas de precisão-recall e o F1-score ajudam a revelar trade-offs e a orientar as decisões sobre como fazer melhorias no modelo de ML. Ao escolher a combinação certa de métricas para uma solução de IA específica, pode garantir que os modelos são precisos, fiáveis e eficazes em aplicações do mundo real.
Explore nossa crescente comunidade! Consulte nosso repositório GitHub para saber mais sobre IA. Pronto para iniciar seus projetos de visão computacional? Dê uma olhada em nossas opções de licenciamento. Descubra a IA na agricultura e a Vision AI em robótica visitando nossas páginas de soluções!