Precisão média (mAP) na deteção de objectos

Abirami Vina

6 min. de leitura

28 de agosto de 2025

Compreender a precisão média (mAP) na deteção de objectos. Saiba o seu significado, cálculo e porque é que a mAP é fundamental para avaliar o desempenho do modelo.

A adoção da IA está a crescer rapidamente e a IA está a ser integrada em várias inovações, desde carros autónomos a sistemas de retalho que conseguem identificar produtos numa prateleira. Estas tecnologias baseiam-se na visão por computador, um ramo da inteligência artificial (IA) que permite às máquinas analisar dados visuais. 

Uma métrica de avaliação fundamental utilizada para medir a exatidão dos sistemas e algoritmos de visão computacional é a precisão média (mAP). A métrica mAP indica a proximidade entre a previsão de um modelo de IA de visão e os resultados do mundo real.

Uma tarefa comum de visão computacional é a deteção de objectos, em que um modelo identifica vários objectos numa imagem e desenha caixas delimitadoras à sua volta. O mAP é a métrica padrão utilizada para avaliar o desempenho dos modelos de deteção de objectos e é amplamente utilizado para aferir modelos de aprendizagem profunda como o Ultralytics YOLO11.

Neste artigo, veremos como é calculada a precisão média e porque é essencial para qualquer pessoa que treine ou avalie modelos de deteção de objectos. Vamos começar!

O que é a precisão média (mAP)?

A precisão média é uma pontuação que mostra a precisão de um modelo de aprendizagem profunda quando se trata de tarefas relacionadas com a recuperação de informações visuais, como a deteção e identificação de diferentes objectos numa imagem. Por exemplo, considere um modelo de deteção de objectos que analisa uma fotografia que contém um cão, um gato e um carro. Um modelo fiável pode efetuar a deteção de objectos reconhecendo cada objeto e desenhando caixas delimitadoras e etiquetas à sua volta, destacando onde se encontra e o que é.

O mAP indica a qualidade com que o modelo executa esta tarefa em muitas imagens e diferentes tipos de objectos. Verifica se o modelo identifica com precisão cada objeto e a sua localização na imagem. A pontuação varia entre 0 e 1, em que um significa que o modelo encontrou tudo perfeitamente e zero significa que não conseguiu detetar quaisquer objectos.

Conceitos-chave da precisão média (mAP)

Antes de explorarmos os conceitos subjacentes à precisão média na aprendizagem automática, vamos compreender melhor dois termos básicos: verdade fundamental e previsões. 

A verdade fundamental refere-se aos dados de referência exactos, em que os objectos e as suas localizações na imagem são cuidadosamente identificados por humanos através de um processo conhecido como anotação. Entretanto, as previsões são os resultados que os modelos de IA fornecem depois de analisarem uma imagem. Ao comparar as previsões do modelo de IA com a verdade fundamental, podemos medir a proximidade do modelo em relação aos resultados corretos. 

Fig. 1. As caixas de delimitação do modelo de previsão e da verdade terrestre. Imagem do autor.

Matriz de confusão

Uma matriz de confusão é frequentemente utilizada para compreender a precisão de um modelo de deteção de objectos. Trata-se de uma tabela que mostra como as previsões do modelo correspondem às respostas corretas reais (verdade terrestre). A partir desta tabela, podemos obter uma análise de quatro componentes ou resultados principais: verdadeiros positivos, falsos positivos, falsos negativos e verdadeiros negativos.

Eis o que estes componentes representam na matriz de confusão:

  • Verdadeiro positivo (TP): Um objeto e a sua localização são corretamente detectados pelo modelo.
  • Falso positivo (FP): O modelo fez uma deteção, mas estava incorreto.
  • Falso negativo (FN): Um objeto que estava realmente presente na imagem, mas que o modelo não conseguiu detetar.
  • Verdadeiro negativo (TN): Os verdadeiros negativos ocorrem quando o modelo identifica corretamente a ausência de um objeto.

Os verdadeiros negativos não são normalmente utilizados na deteção de objectos, uma vez que normalmente ignoramos as muitas regiões vazias de uma imagem. No entanto, é essencial noutras tarefas de visão computacional, como a classificação de imagens, em que o modelo atribui um rótulo à imagem. Por exemplo, se a tarefa é detetar se uma imagem contém um gato ou não, e o modelo identifica corretamente "nenhum gato" quando a imagem não contém um, trata-se de um verdadeiro negativo.

Figura 2. Resultados da classificação numa matriz de confusão. Imagem do autor.

Intersecção sobre a União (IoU)

Outra métrica vital na avaliação dos modelos de deteção de objectos é a Intersecção sobre União (IoU). Para estes modelos de IA de visão, a simples deteção da presença de um objeto numa imagem não é suficiente; é também necessário localizar onde se encontra numa imagem para desenhar caixas delimitadoras. 

A métrica IoU mede a proximidade entre a caixa prevista pelo modelo e a caixa real e correta (verdade terrestre). A pontuação varia entre 0 e 1, em que 1 significa uma correspondência perfeita e 0 significa que não existe qualquer sobreposição.

Por exemplo, um IoU mais elevado (como 0,80 ou 0,85) significa que a caixa prevista é uma correspondência próxima da caixa da verdade terrestre, indicando uma localização exacta. Um IoU mais baixo (como 0,30 ou 0,25) significa que o modelo não localizou o objeto com precisão.

Para determinar se uma deteção é bem sucedida, utilizamos diferentes limiares. Um limiar de IoU comum é 0,5, o que significa que uma caixa prevista deve sobrepor-se à caixa da verdade terrestre em pelo menos 50% para ser contada como um verdadeiro positivo. Qualquer sobreposição abaixo deste limiar é considerada um falso positivo.

Figura 3. Compreender a intersecção em vez da união. Imagem do autor.

Precisão e recuperação

Até agora, explorámos algumas métricas de avaliação básicas para compreender o desempenho dos modelos de deteção de objectos. Com base nisto, duas das métricas mais importantes são a precisão e a recuperação. Estas dão-nos uma imagem clara da precisão das detecções do modelo. Vamos ver o que são.

Os valores de precisão dizem-nos quantas das previsões do modelo estavam realmente corretas. Respondem à pergunta: de todos os objectos que o modelo afirmava detetar, quantos estavam realmente lá?

Os valores de recuperação, por outro lado, medem a capacidade do modelo para encontrar todos os objectos reais presentes na imagem. Respondem à pergunta: de todos os objectos reais presentes, quantos é que o modelo detectou corretamente?

Em conjunto, a precisão e a recuperação dão-nos uma imagem mais clara do desempenho de um modelo. Por exemplo, se um modelo prevê 10 carros numa imagem e 9 deles são de facto carros, tem uma precisão de 90% (uma previsão positiva). 

Estas duas métricas de avaliação envolvem muitas vezes um compromisso: um modelo pode atingir um valor de precisão elevado fazendo apenas previsões em que está totalmente confiante, mas isso pode fazer com que falhe muitos objectos, o que reduz o nível de recuperação. Entretanto, também pode atingir uma recuperação muito elevada ao prever uma caixa delimitadora em quase todo o lado, mas isso reduziria a precisão.

Figura 4. Precisão e recuperação. Imagem do autor.

Precisão média

Enquanto a precisão e a recuperação nos ajudam a compreender o desempenho de um modelo em previsões individuais, a precisão média (AP) pode fornecer uma visão mais ampla. Ilustra a forma como a precisão do modelo muda à medida que tenta detetar mais objectos e resume o seu desempenho num único número.

Para calcular a pontuação média de precisão, podemos primeiro criar uma métrica semelhante a um gráfico combinado chamada curva de precisão-recordação (ou curva PR) para cada tipo de objeto. Esta curva mostra o que acontece à medida que o modelo faz mais previsões. 

Considere-se um cenário em que o modelo começa por detetar apenas os objectos mais fáceis ou mais óbvios. Nesta fase, a precisão é elevada porque a maior parte das previsões estão corretas, mas a recuperação é baixa, uma vez que muitos objectos continuam a não ser detectados. À medida que o modelo tenta detetar mais objectos, incluindo os mais difíceis ou mais raros, normalmente introduz mais erros. Isto faz com que a precisão diminua enquanto a recuperação aumenta.

A precisão média é a área sob a curva (AUC da curva PR). Uma área maior significa que o modelo é melhor a manter as suas previsões exactas, mesmo quando detecta mais objectos. A AP é calculada separadamente para cada etiqueta de classe. 

Por exemplo, num modelo que consegue detetar carros, bicicletas e peões, podemos calcular os valores de AP individualmente para cada uma dessas três categorias. Isto ajuda-nos a ver quais os objectos que o modelo é bom a detetar e onde ainda precisa de ser melhorado.

Fig. 5. Uma curva PR para cinco classes diferentes.(Fonte)

Precisão média média

Depois de calcular a precisão média para cada classe de objeto, precisamos ainda de uma pontuação única que reflicta o desempenho global do modelo em todas as classes. Isto pode ser conseguido utilizando a fórmula da precisão média . Esta fórmula calcula a média das pontuações AP para cada categoria.

Por exemplo, vamos assumir que um modelo de visão computacional como o YOLO11 atinge um PA de 0,827 para automóveis, 0,679 para motociclos, 0,355 para camiões, 0,863 para autocarros e 0,982 para bicicletas. Utilizando a fórmula mAP, podemos somar estes números e dividir pelo número total de classes da seguinte forma: 

mAP = (0,827 + 0,679 + 0,355 + 0,863 + 0,982) ÷ 5 = 0,7432 ≈ 0,743

A pontuação mAP de 0,743 fornece uma solução simples para avaliar o desempenho do modelo em todas as classes de objectos. Um valor próximo de 1 significa que o modelo é exato para a maioria das categorias, enquanto um valor inferior sugere que tem dificuldades com algumas.

Importância de AP e mAP na visão por computador

Agora que compreendemos melhor como o AP e o mAP são calculados e quais são os seus componentes, eis uma visão geral do seu significado na visão por computador:

  • Baixo PA para uma classe específica: Um PA baixo para uma única classe significa frequentemente que o modelo tem dificuldades com essa classe de objeto específica. Isto pode dever-se a dados de formação insuficientes ou a desafios visuais nas imagens, como a oclusão.
  • Erros de localização: Um valor de mAP mais elevado num limiar de IoU mais baixo (como mAP@0.50) combinado com uma queda significativa num limiar de IoU mais elevado (como mAP@0.75) indica que o modelo consegue detetar objectos mas tem dificuldade em localizá-los com precisão.
  • Sobreajuste: Um valor mais elevado de mAP no conjunto de dados de treino mas um valor mais baixo de mAP no conjunto de dados de validação é um sinal de sobreajuste, tornando o modelo pouco fiável para novas imagens.

Aplicações do mundo real da precisão média

Em seguida, vamos explorar a forma como as principais métricas, como o mAP, podem ajudar na criação de casos de utilização de visão computacional no mundo real.

Veículos autónomos: Porque é que um valor de mAP mais elevado significa estradas mais seguras

No que diz respeito aos automóveis autónomos, a deteção de objectos é crucial para identificar peões, sinais de trânsito, ciclistas e marcações na faixa de rodagem. Por exemplo, se uma criança atravessar a rua de repente, o automóvel tem segundos para detetar o objeto (criança), localizar onde se encontra, seguir o seu movimento e tomar as medidas necessárias (travar). 

Modelos como o YOLO11 foram concebidos para a deteção de objectos em tempo real em cenários de alto risco. Nestes casos, o mAP torna-se uma medida crítica de segurança.

Uma pontuação mAP elevada garante que o sistema detecta a criança rapidamente, localiza-a com precisão e desencadeia a travagem com um atraso mínimo. Um mAP baixo pode significar detecções perdidas ou classificações erradas perigosas, como confundir a criança com outro objeto pequeno.

Fig. 6. Um exemplo de utilização do YOLO11 para detetar peões na estrada.(Fonte)

Utilização de mAP para uma deteção precisa de produtos

Do mesmo modo, no comércio retalhista, os modelos de deteção de objectos podem ser utilizados para automatizar tarefas como a monitorização de stocks e os processos de checkout. Quando um cliente digitaliza um produto numa caixa de pagamento automática, um erro na deteção pode causar frustração.

Uma pontuação mAP elevada garante que o modelo distingue com exatidão produtos semelhantes e desenha caixas delimitadoras precisas, mesmo quando os artigos estão bem embalados. Uma pontuação baixa de mAP pode levar a confusões. Por exemplo, se o modelo confundir uma garrafa de sumo de laranja com uma garrafa de sumo de maçã visualmente semelhante, isso pode resultar numa faturação incorrecta e em relatórios de inventário imprecisos.

Os sistemas de retalho integrados com modelos como o YOLO11 podem detetar produtos em tempo real, compará-los com o inventário e atualizar instantaneamente os sistemas backend. Em ambientes de retalho de ritmo acelerado, o mAP desempenha um papel crucial para manter as operações precisas e fiáveis.

Melhorar a precisão do diagnóstico com mAP elevado nos cuidados de saúde

A melhoria da precisão do diagnóstico nos cuidados de saúde começa com uma deteção precisa na imagiologia médica. Modelos como o YOLO11 podem ajudar os radiologistas a detetar tumores, fracturas ou outras anomalias nesses exames médicos. Neste caso, a precisão média é uma métrica essencial para avaliar a fiabilidade clínica de um modelo.

Um mAP elevado indica que o modelo alcança uma elevada recuperação (identificando os problemas mais reais) e uma elevada precisão (evitando falsos alarmes), o que é crucial na tomada de decisões clínicas. Além disso, o limiar de IoU nos cuidados de saúde é frequentemente definido como muito elevado (0,85 ou 0,90) para garantir uma deteção extremamente precisa.

No entanto, uma pontuação mAP baixa pode suscitar preocupações. Digamos que um modelo não detecta um tumor, o que pode atrasar o diagnóstico ou conduzir a um tratamento incorreto. 

Prós e contras da utilização do mAP

Eis as principais vantagens da utilização da precisão média para avaliar os modelos de deteção de objectos:

  • Métrica padronizada: o mAP é o padrão da indústria para avaliar modelos de deteção de objectos. Um valor de mAP permite comparações justas e consistentes entre diferentes modelos.
  • Reflecte o desempenho no mundo real: Um mAP elevado indica que o modelo é excelente na deteção de várias classes de objectos e mantém um forte desempenho em cenários complexos do mundo real.
  • Diagnóstico por classe: Uma pontuação mAP avalia o desempenho da deteção para cada classe individualmente. Isto facilita a identificação de categorias com fraco desempenho (como bicicletas ou sinais de trânsito) e o ajuste fino do modelo em conformidade.

Embora existam vários benefícios na utilização da métrica mAP, existem algumas limitações a considerar. Eis alguns factores a ter em conta:

  • Difícil para os intervenientes não técnicos: As equipas comerciais ou clínicas podem considerar os valores do mAP abstractos, ao contrário de métricas mais intuitivas e fáceis de compreender.
  • Não reflecte as restrições do tempo real: o mAP não tem em conta a velocidade ou a latência da inferência, que são cruciais para a implementação em aplicações sensíveis ao tempo.

Principais conclusões

Vimos que a precisão média não é apenas uma pontuação técnica, mas um reflexo do potencial desempenho de um modelo no mundo real. Quer se trate de um sistema de veículo autónomo ou de uma caixa de venda a retalho, uma pontuação mAP elevada é um indicador fiável do desempenho e da prontidão prática de um modelo.

Embora o mAP seja uma métrica essencial e impactante, ele deve ser visto como parte de uma estratégia de avaliação completa. Para aplicações críticas como os cuidados de saúde e a condução autónoma, não é suficiente confiar apenas no mAP. 

Factores adicionais, como a velocidade de inferência (a rapidez com que o modelo faz previsões), o tamanho do modelo (que afecta a implementação em dispositivos periféricos) e a análise qualitativa de erros (compreensão dos tipos de erros que o modelo comete) também devem ser considerados para garantir que o sistema é seguro, eficiente e verdadeiramente adequado para o fim a que se destina.

Junte-se à nossa crescente comunidade e ao repositório GitHub para saber mais sobre visão computacional. Explore nossas páginas de soluções para saber mais sobre aplicações de visão computacional na agricultura e IA em logística. Confira nossas opções de licenciamento para começar a usar seu próprio modelo de visão computacional hoje mesmo!

Vamos construir juntos o futuro
da IA!

Comece a sua viagem com o futuro da aprendizagem automática

Comece gratuitamente
Ligação copiada para a área de transferência