Acurácia vs. precisão vs. recall em aprendizagem automática
Aprende sobre Acurácia, Precisão e Recall em aprendizagem automática. Explora a Matriz de Confusão, F1 Score e como usar estas métricas de avaliação vitais.

Machine learning (ML) é um ramo da inteligência artificial (AI) focado na criação de sistemas que aprendem a partir de dados. Ele desempenha um papel central em muitas outras áreas da AI, incluindo computer vision, onde máquinas interpretam imagens, e processamento de linguagem natural, onde elas compreendem e geram linguagem humana.
Frequentemente, tais modelos de AI usam técnicas de deep learning para fazer previsões a partir de dados. Embora esses sistemas possam ser altamente eficazes, eles nem sempre produzem previsões corretas. Algumas saídas podem ser precisas, enquanto outras erram o alvo.
Saber como esses erros ocorrem é uma parte fundamental da avaliação de quão bem um modelo performa. Para medir o desempenho, podemos usar model evaluation metrics.
As métricas de avaliação comuns incluem acurácia (correção geral), precisão (confiabilidade das previsões positivas) e recall (quão bem o modelo identifica os positivos reais). Elas podem parecer semelhantes à primeira vista, mas cada uma foca em uma parte diferente do comportamento de um modelo.
Neste artigo, veremos mais de perto cada uma dessas métricas de desempenho de modelos de AI. Também exploraremos como elas se relacionam entre si e como escolher a correta para o seu caso de uso. Vamos começar!
Link to this sectionAs métricas de avaliação de modelo são importantes em machine learning#
Um modelo de machine learning pode parecer estar performando bem inicialmente. Mas, sem as métricas de avaliação certas, é difícil entender quão precisos são seus resultados. Essas métricas dão estrutura à avaliação do modelo e ajudam a responder a uma pergunta chave: as previsões do modelo são úteis e confiáveis para uma determinada tarefa?
Métricas como acurácia, precisão e recall oferecem aos desenvolvedores de AI uma maneira clara de medir quão bem um modelo está funcionando. Por exemplo, ao comparar diferentes modelos, essas métricas tornam possível ver qual deles performa melhor para uma tarefa específica. Elas ajudam a avaliar o desempenho e guiam a escolha do modelo que melhor se adapta aos objetivos de um projeto de AI.

Fig 1. Fluxo de trabalho de treinamento e avaliação de modelo (Fonte)
Essas métricas também tornam as comparações de desempenho mais objetivas. Em vez de depender de suposições ou observações incompletas, elas fornecem insights mensuráveis sobre como um modelo se comporta em diferentes situações. Ao fazer isso, elas destacam quais aspectos do desempenho importam mais em cada contexto.
Por exemplo, a escolha da métrica muitas vezes depende da aplicação. Em AI healthcare applications, o recall é importante porque o objetivo é identificar o máximo de casos positivos possível, mesmo que alguns negativos sejam sinalizados erroneamente. Em contraste, um filtro de spam de e-mail pode priorizar a precisão para evitar marcar incorretamente e-mails legítimos como spam.
Link to this sectionA matriz de confusão: a base das métricas de classificação#
A confusion matrix é uma tabela dois por dois fundamental para avaliar modelos de AI. Ela organiza as previsões em quatro categorias, comparando os resultados reais com os resultados previstos (as respostas que o modelo fornece).
Essa comparação fornece uma visão detalhada do desempenho do modelo. Ela forma a base para métricas de avaliação importantes como precisão e recall, que são calculadas diretamente a partir dos valores na matriz.
As linhas da tabela representam as classes reais, e as colunas representam as classes previstas. Cada célula mostra a contagem de resultados naquela categoria. Simplificando, ela mostra quantas previsões estavam corretas e os tipos de erros que o modelo cometeu.
A matriz de confusão é especialmente útil quando os dados estão desbalanceados, significando que algumas categorias têm muito mais exemplos do que outras. Também é útil quando diferentes tipos de erros trazem custos diferentes.
Por exemplo, na detecção de fraudes, capturar atividades fraudulentas é crítico, mas sinalizar incorretamente transações reais também pode causar problemas. A matriz deixa claro com que frequência cada tipo de erro ocorre.
Link to this sectionElementos da matriz de confusão#
Aqui está uma visão geral dos diferentes elementos em uma matriz de confusão:
- True positive (TP): Quando o modelo prevê corretamente uma instância positiva, ela é registrada como um verdadeiro positivo. Por exemplo, um computer vision model classifica corretamente um veículo em uma imagem.
- True negative (TN): Um verdadeiro negativo ocorre quando o modelo identifica corretamente uma instância negativa. Por exemplo, um classificador de e-mail marca uma mensagem normal como não sendo spam.
- False positive (FP): O modelo gera um falso positivo quando prevê incorretamente um resultado positivo para uma instância que é na verdade negativa. Também conhecido como Erro do Tipo I, isso pode acontecer quando um sistema de detecção de fraudes sinaliza uma transação válida como fraudulenta.
- False negative (FN): Um falso negativo é registrado quando o modelo falha em detectar um caso positivo e o prevê incorretamente como negativo. Também referido como Erro do Tipo II, isso pode ocorrer quando uma ferramenta de diagnóstico deixa passar uma doença em um paciente que está realmente doente.

Fig 2. Os elementos de uma matriz de confusão (Fonte)
Link to this sectionRepresentação visual e interpretação da matriz de confusão#
Uma matriz de confusão é exibida em formato de grade. O eixo vertical mostra as classes reais, e o eixo horizontal mostra as classes previstas. Previsões corretas aparecem ao longo da diagonal, representando verdadeiros positivos e verdadeiros negativos.
Os erros caem fora da diagonal, cobrindo falsos positivos e falsos negativos. Essa estrutura torna fácil identificar pontos fortes e fracos.
Link to this sectionO que é acurácia em machine learning?#
Accuracy é uma das métricas mais amplamente usadas para avaliar quão bem um modelo de machine learning performa. Ela mede com que frequência as previsões estão corretas em todas as classes. Em outras palavras, ela responde a uma pergunta simples: de todas as previsões que o modelo de AI fez, quantas estavam certas?
A fórmula para acurácia é o número de previsões corretas (que inclui tanto verdadeiros positivos quanto verdadeiros negativos) dividido pelo número total de previsões. A acurácia é simples de calcular e fácil de entender, o que a torna um ponto de partida comum na avaliação de modelos.
Geralmente, a acurácia é confiável ao lidar com datasets balanceados. No entanto, a acurácia pode muitas vezes ser enganosa em datasets desbalanceados onde uma classe domina as outras. Um modelo que sempre prevê a classe majoritária ainda pode alcançar uma pontuação de acurácia alta, enquanto falha em detectar outras classes minoritárias.
Por exemplo, em um dataset de imagens onde apenas algumas contêm pedestres, um modelo que prevê “sem pedestre” para cada imagem ainda pode alcançar uma acurácia alta, mas falhar completamente em detectar os pedestres reais.
Isso acontece porque a acurácia, por si só, não mostra que tipos de erros um modelo comete ou com que frequência eles ocorrem. É por isso que é importante também olhar para métricas como precisão e recall para entender completamente quão bem um modelo de AI funciona.
Link to this sectionMergulhando na precisão: minimizando alarmes falsos#
Precision é uma métrica de avaliação chave que mede a precisão das previsões positivas de um modelo. Ela responde à pergunta: de todas as instâncias previstas como positivas, quantas estavam corretas?
A fórmula da precisão é o número de verdadeiros positivos dividido pela soma de verdadeiros positivos e falsos positivos. Ela é particularmente importante quando uma previsão positiva seria custosa se revelasse estar errada.

Fig 3. Comparando acurácia e precisão. (Fonte)
Por exemplo, na detecção de fraudes, um modelo com baixa precisão pode sinalizar muitas transações válidas como fraudulentas, criando problemas desnecessários tanto para usuários quanto para equipes de suporte. Um modelo com alta precisão reduz esse risco, garantindo que as transações sinalizadas sejam mais propensas a ser fraude real.
Embora a alta precisão seja boa, modelos que focam demais nela podem se tornar muito seletivos, perdendo casos positivos reais. É por isso que a métrica de precisão é frequentemente verificada junto com o recall para manter o desempenho balanceado.
Link to this sectionO que é recall?#
Recall é uma métrica usada para medir quão bem um modelo identifica casos positivos reais. É conhecido como sensibilidade ou taxa de verdadeiros positivos, e responde à pergunta: de todas as instâncias positivas reais, quantas o modelo detectou corretamente?
A fórmula para recall é o número de verdadeiros positivos dividido pela soma de verdadeiros positivos e falsos negativos. Uma pontuação de recall alta mostra que o modelo está capturando a maioria dos casos positivos reais nos dados.
O recall é essencial em setores como a saúde, onde falhar em detectar uma condição pode atrasar o tratamento e colocar pacientes em risco. Mesmo que alguns casos negativos sejam sinalizados incorretamente, identificar todos os casos reais permanece a prioridade máxima.
No entanto, modelos que focam apenas no recall podem sinalizar falsos positivos demais, o que reduz a precisão e prejudica a eficiência geral do modelo. Equilibrar recall e precisão é crucial para um AI model performance confiável.
Link to this sectionO ato de equilibrar: o trade-off entre precisão e recall#
Precisão e recall muitas vezes se movem em direções opostas. Quando um melhora, o outro pode diminuir. Esse trade-off é um desafio comum em tarefas de machine learning.
Um modelo de alta precisão prevê algo como positivo apenas quando está confiante. Isso reduz alarmes falsos, mas pode perder positivos reais, o que reduz o recall. Um modelo que tenta capturar cada positivo aumenta o recall, mas arrisca mais alarmes falsos, o que reduz a precisão.
Esse trade-off torna-se mais claro quando você ajusta o limiar de decisão do modelo. O limiar é o ponto de corte que um sistema usa para transformar uma pontuação ou probabilidade em uma ação ou rótulo. Diminuir o limiar faz o sistema agir de forma positiva com mais frequência, o que pode aumentar o recall, mas pode reduzir a precisão. Aumentar o limiar tem o efeito oposto: o modelo prevê menos positivos, a precisão melhora, mas o recall geralmente cai.
Digamos que você esteja trabalhando na detecção de spam. O modelo precisa equilibrar o risco de deixar spam entrar na caixa de entrada com o risco de bloquear e-mails reais. Um filtro rigoroso ainda pode perder algum spam, enquanto um mais leniente pode bloquear acidentalmente mensagens legítimas. O equilíbrio certo depende do caso de uso e do custo de cada tipo de erro.
Link to this sectionO significado da curva de precisão–recall#
A curva de precisão-recall ou curva PR mostra como a precisão e o recall mudam à medida que o limiar de decisão do modelo muda. Cada ponto representa um trade-off diferente entre os dois. A curva PR é especialmente útil para datasets desbalanceados, onde uma classe é muito menos frequente.
Ela também fornece um insight mais significativo do que a Receiver Operating Characteristic (ROC) curve, que também mostra quão bem um modelo separa positivos de negativos em diferentes limiares de decisão. Um modelo com alta precisão e alto recall terá uma curva de precisão–recall que permanece próxima ao canto superior direito, o que geralmente é o ideal.
Link to this sectionApresentando o F1-score: uma métrica combinada para equilíbrio#
O F1-score fornece um valor único que captura o equilíbrio entre precisão e recall. O F1-score é calculado como duas vezes o produto da precisão e recall, dividido pela soma da precisão e recall. Ele é útil quando tanto falsos positivos quanto falsos negativos importam, e ajuda ao trabalhar com datasets desbalanceados ou quando uma visão equilibrada do desempenho do modelo é necessária.

Fig 4. Calculando F1-score usando precisão e recall (Fonte)
Link to this sectionAlém da acurácia, precisão e recall#
Embora acurácia, precisão e recall sejam essenciais, outras métricas oferecem insights adicionais com base no tipo de modelo e características do dataset.
Aqui estão algumas métricas comumente usadas que ajudam a avaliar diferentes aspectos do desempenho:
- Especificidade: Ela mede quão bem o modelo identifica negativos reais. É útil quando evitar falsos positivos é importante.
- AUC: AUC, ou Área Sob a Curva, fornece uma pontuação única que reflete quão bem o modelo consegue distinguir entre classes.
- Log loss: Log loss é usado para medir quão confiante um modelo está ao fazer previsões e penaliza mais previsões erradas feitas com alta confiança. Aqui, confidence refere-se ao quão seguro o modelo está sobre sua previsão.
- Avaliação multi-label: Em tarefas multi-label, as métricas são calculadas como média entre os rótulos para refletir o desempenho geral do modelo.
Link to this sectionAplicando acurácia, precisão e recall em computer vision#
Agora que temos uma compreensão mais clara de acurácia, precisão e recall, vamos percorrer como essas métricas são aplicadas em computer vision.
Modelos de computer vision como Ultralytics YOLO11 suportam tarefas como detecção de objetos, onde o modelo identifica quais objetos estão presentes em uma imagem e os localiza usando caixas delimitadoras (bounding boxes). Cada previsão inclui tanto o rótulo do objeto quanto sua posição, o que torna a avaliação mais complexa do que apenas verificar se um rótulo está correto.

Fig 5. Um exemplo de uso do Ultralytics YOLO11 para detecção de objetos. (Fonte)
Considere uma aplicação de retail onde câmeras são usadas para rastrear automaticamente produtos em prateleiras. Um modelo de detecção de objetos pode identificar itens como caixas de cereal, latas de refrigerante ou garrafas de água e marcar suas posições.
Nesse caso, a precisão nos diz quantos dos itens detectados estão realmente corretos. Alta precisão significa que o sistema evita falsos positivos, como rotular uma sombra ou objeto de fundo como um produto. O recall mostra quantos dos produtos reais na prateleira o modelo conseguiu detectar. Alto recall significa que menos itens são perdidos, o que é crítico para contagens precisas de inventário.
A acurácia ainda pode fornecer uma medida geral de correção, mas, nesse tipo de configuração, perder até mesmo alguns produtos ou detectar itens que não estão lá pode ter um grande impacto no gerenciamento de estoque. É por isso que os desenvolvedores analisam precisão, recall e acurácia juntos para garantir que o sistema seja tanto confiável quanto prático para o uso no mundo real.
Link to this sectionAcurácia, precisão e recall: principais conclusões#
Acurácia, precisão e recall mostram aspectos diferentes do desempenho de um modelo de machine learning. Depender apenas de uma métrica pode ser enganoso.
Ferramentas e métricas como a matriz de confusão, curvas de precisão–recall e o F1-score ajudam a revelar trade-offs e guiam decisões sobre como fazer melhorias no modelo de ML. Ao escolher a combinação certa de métricas para uma solução de AI específica, você pode garantir que os modelos sejam precisos, confiáveis e eficazes em aplicações do mundo real.
Explore nossa community em crescimento! Confira nosso GitHub repository para aprender mais sobre AI. Pronto para iniciar seus projetos de computer vision? Dê uma olhada em nossas licensing options. Descubra AI in agriculture e vision AI in robotics visitando nossas páginas de soluções!






