Yolo Vision Shenzhen
Shenzhen
Junte-se agora

Precisão médiamAP) na deteção de objectos

Abirami Vina

Leitura de 6 min

28 de agosto de 2025

Compreender a precisão médiamAP) na deteção de objectos. Saiba o seu significado, cálculo e porque é que mAP é fundamental para avaliar o desempenho do modelo.

A adoção da IA está crescendo rapidamente, e a IA está sendo integrada em várias inovações, desde carros autônomos até sistemas de varejo que podem identificar produtos em uma prateleira. Essas tecnologias dependem da visão computacional, um ramo da inteligência artificial (IA) que permite que as máquinas analisem dados visuais. 

Uma métrica de avaliação fundamental utilizada para medir a exatidão dos sistemas e algoritmos de visão computacional é a precisão médiamAP). A métrica mAP indica a proximidade entre a previsão de um modelo de IA de visão e os resultados do mundo real.

Uma tarefa comum de visão por computador é a deteção de objectos, em que um modelo identifica vários objectos numa imagem e desenha caixas delimitadoras à sua volta. mAP é a métrica padrão utilizada para avaliar o desempenho dos modelos de deteção de objectos e é amplamente utilizado para aferir modelos de aprendizagem profunda como o Ultralytics YOLO11.

Neste artigo, veremos como a precisão média (mean average precision) é calculada e por que ela é essencial para quem treina ou avalia modelos de detecção de objetos. Vamos começar!

O que é a precisão médiamAP)?

A precisão média é uma pontuação que demonstra o quão preciso é um modelo de deep learning quando se trata de tarefas relacionadas à recuperação de informações visuais, como detectar e identificar diferentes objetos em uma imagem. Por exemplo, considere um modelo de detecção de objetos analisando uma foto que contém um cachorro, um gato e um carro. Um modelo confiável pode realizar a detecção de objetos reconhecendo cada objeto e desenhando bounding boxes e rótulos ao redor dele, destacando onde ele está e o que é.

mAP indica a qualidade com que o modelo executa esta tarefa em muitas imagens e diferentes tipos de objectos. Verifica se o modelo identifica com precisão cada objeto e a sua localização na imagem. A pontuação varia entre 0 e 1, em que um significa que o modelo encontrou tudo perfeitamente e zero significa que não conseguiu detect quaisquer objectos.

Conceitos-chave da precisão médiamAP)

Antes de explorarmos os conceitos por trás da precisão média (mean average precision) em machine learning, vamos entender melhor dois termos básicos: ground truth e previsões. 

O termo ground truth (verdade fundamental) se refere aos dados de referência precisos, onde os objetos e suas localizações na imagem são cuidadosamente rotulados por humanos por meio de um processo conhecido como anotação. Enquanto isso, as predições são os resultados que os modelos de IA fornecem após analisar uma imagem. Ao comparar as predições do modelo de IA com o ground truth, podemos medir o quão perto o modelo chegou de obter os resultados corretos. 

Fig 1. A predição do modelo e as bounding boxes (caixas delimitadoras) ground truth. Imagem do autor.

Matriz de confusão

Uma matriz de confusão é frequentemente usada para entender o quão preciso é um modelo de detecção de objetos. É uma tabela que mostra como as previsões do modelo correspondem às respostas corretas reais (verdade fundamental). Desta tabela, podemos obter uma discriminação de quatro componentes ou resultados principais: verdadeiros positivos, falsos positivos, falsos negativos e verdadeiros negativos.

Aqui está o que esses componentes representam na matriz de confusão:

  • Verdadeiro positivo (VP): Um objeto e sua localização são detectados corretamente pelo modelo.
  • Falso positivo (FP): O modelo fez uma detecção, mas estava incorreta.
  • Falso negativo (FN): Um objeto que estava realmente presente na imagem, mas que o modelo não conseguiu detect .
  • Verdadeiro negativo (VN): Verdadeiros negativos ocorrem quando o modelo identifica corretamente a ausência de um objeto.

Os verdadeiros negativos não são normalmente utilizados na deteção de objectos, uma vez que normalmente ignoramos as muitas regiões vazias de uma imagem. No entanto, é essencial noutras tarefas de visão computacional, como a classificação de imagens, em que o modelo atribui um rótulo à imagem. Por exemplo, se a tarefa é detect se uma imagem contém um gato ou não, e o modelo identifica corretamente "nenhum gato" quando a imagem não contém um, trata-se de um verdadeiro negativo.

Fig 2. Resultados da classificação em uma matriz de confusão. Imagem do autor.

Intersecção sobre a UniãoIoU)

Outra métrica vital na avaliação dos modelos de deteção de objectos é a Intersecção sobre UniãoIoU). Para estes modelos de IA de visão, a simples deteção da presença de um objeto numa imagem não é suficiente; é também necessário localizar onde se encontra numa imagem para desenhar caixas delimitadoras. 

A métrica IoU mede a proximidade entre a caixa prevista pelo modelo e a caixa real e correta (verdade terrestre). A pontuação varia entre 0 e 1, em que 1 significa uma correspondência perfeita e 0 significa que não existe qualquer sobreposição.

Por exemplo, um IoU mais elevado (como 0,80 ou 0,85) significa que a caixa prevista é uma correspondência próxima da caixa da verdade terrestre, indicando uma localização exacta. Um IoU mais baixo (como 0,30 ou 0,25) significa que o modelo não localizou o objeto com precisão.

Para determinar se uma deteção é bem sucedida, utilizamos diferentes limiares. Um limiar IoU comum é 0,5, o que significa que uma caixa prevista deve sobrepor-se à caixa da verdade terrestre em pelo menos 50% para ser contada como um verdadeiro positivo. Qualquer sobreposição abaixo deste limiar é considerada um falso positivo.

Fig 3. Entendendo a Intersecção sobre União. Imagem do autor.

Precisão e recall

Até agora, exploramos algumas métricas de avaliação básicas para entender o desempenho dos modelos de detecção de objetos. Com base nisso, duas das métricas mais importantes são precisão e recall. Elas nos dão uma imagem clara de quão precisas são as detecções do modelo. Vamos dar uma olhada no que são.

Os valores de precisão dizem-nos quantas das previsões do modelo estavam realmente corretas. Respondem à pergunta: de todos os objectos que o modelo afirmava detect, quantos estavam realmente lá?

Os valores de recuperação, por outro lado, medem a capacidade do modelo para encontrar todos os objectos reais presentes na imagem. Respondem à pergunta: de todos os objectos reais presentes, quantos é que o modelo detect corretamente?

Juntos, precisão e recall nos dão uma imagem mais clara de quão bem um modelo está funcionando. Por exemplo, se um modelo prevê 10 carros em uma imagem e 9 deles são realmente carros, ele tem uma precisão de 90% (uma previsão positiva). 

Essas duas métricas de avaliação geralmente envolvem um trade-off: um modelo pode atingir um alto valor de precisão apenas fazendo previsões nas quais está totalmente confiante, mas isso pode fazer com que ele perca muitos objetos, o que diminui o nível de recall. Enquanto isso, ele também pode atingir um recall muito alto prevendo uma bounding box em quase todos os lugares, mas isso reduziria a precisão.

Fig 4. Precisão e recall. Imagem do autor.

Precisão média

Enquanto a precisão e a recuperação nos ajudam a compreender o desempenho de um modelo em previsões individuais, a precisão médiaAP) pode fornecer uma visão mais ampla. Ilustra a forma como a precisão do modelo muda à medida que tenta detect mais objectos e resume o seu desempenho num único número.

Para calcular a pontuação média de precisão, podemos primeiro criar uma métrica combinada semelhante a um gráfico, chamada curva de precisão-recall (ou curva PR) para cada tipo de objeto. Esta curva mostra o que acontece à medida que o modelo faz mais previsões. 

Considere-se um cenário em que o modelo começa por detetar apenas os objectos mais fáceis ou mais óbvios. Nesta fase, a precisão é elevada porque a maior parte das previsões estão corretas, mas a recuperação é baixa, uma vez que muitos objectos continuam a não ser detectados. À medida que o modelo tenta detect mais objectos, incluindo os mais difíceis ou mais raros, normalmente introduz mais erros. Isto faz com que a precisão diminua enquanto a recuperação aumenta.

A precisão média é a área sob a curva (AUC da curva PR). Uma área maior significa que o modelo é melhor a manter as suas previsões exactas, mesmo quando detecta mais objectos. AP é calculada separadamente para cada etiqueta de classe. 

Por exemplo, num modelo que pode detect carros, bicicletas e peões, podemos calcular os valores AP individualmente para cada uma dessas três categorias. Isto ajuda-nos a ver quais os objectos que o modelo é bom a detetar e onde ainda precisa de ser melhorado.

Fig 5. Uma curva PR para cinco classes diferentes. (Fonte)

Precisão média (Mean Average Precision)

Depois de calcular a precisão média para cada classe de objeto, precisamos ainda de uma pontuação única que reflicta o desempenho global do modelo em todas as classes. Isto pode ser conseguido utilizando a fórmula da precisão média . Esta fórmula calcula a média das pontuações AP para cada categoria.

Por exemplo, vamos assumir que um modelo de visão computacional como o YOLO11 atinge um AP de 0,827 para automóveis, 0,679 para motociclos, 0,355 para camiões, 0,863 para autocarros e 0,982 para bicicletas. Utilizando a fórmula mAP , podemos somar estes números e dividir pelo número total de classes da seguinte forma: 

mAP = (0,827 + 0,679 + 0,355 + 0,863 + 0,982) ÷ 5 = 0,7432 ≈ 0,743

A pontuação mAP de 0,743 fornece uma solução simples para avaliar o desempenho do modelo em todas as classes de objectos. Um valor próximo de 1 significa que o modelo é exato para a maioria das categorias, enquanto um valor inferior sugere que tem dificuldades com algumas.

Importância de AP e mAP na visão por computador

Agora que compreendemos melhor como AP e mAP são calculados e quais são os seus componentes, eis uma visão geral do seu significado na visão por computador:

  • Baixo AP para uma classe específica: Um AP baixo para uma única classe significa frequentemente que o modelo tem dificuldades com essa classe de objeto específica. Isto pode dever-se a dados de formação insuficientes ou a desafios visuais nas imagens, como a oclusão.
  • Erros de localização: Um valor mAP mais elevado num limiar IoU mais baixo (como mAP combinado com uma queda significativa num limiar IoU mais elevado (como mAP indica que o modelo consegue detect objectos mas tem dificuldade em localizá-los com precisão.
  • Sobreajuste: Um valor mais elevado mAP no conjunto de dados de treino mas um valor mais baixo mAP no conjunto de dados de validação é um sinal de sobreajuste, tornando o modelo pouco fiável para novas imagens.

Aplicações no mundo real da precisão média (mean average precision)

Em seguida, vamos explorar a forma como as principais métricas, como o mAP , podem ajudar na criação de casos de utilização de visão computacional no mundo real.

Veículos autónomos: Porque é que um valor mAP mais elevado significa estradas mais seguras

No que diz respeito aos automóveis autónomos, a deteção de objectos é crucial para identificar peões, sinais de trânsito, ciclistas e marcações na faixa de rodagem. Por exemplo, se uma criança atravessar a rua de repente, o automóvel tem segundos para detect o objeto (criança), localizar onde se encontra, track seu movimento e tomar as medidas necessárias (travar). 

Modelos como o YOLO11 foram concebidos para a deteção de objectos em tempo real em cenários de alto risco. Nestes casos, mAP torna-se uma medida crítica de segurança.

Uma pontuação mAP elevada garante que o sistema detecta a criança rapidamente, localiza-a com precisão e desencadeia a travagem com um atraso mínimo. Um mAP baixo pode significar detecções perdidas ou classificações erradas perigosas, como confundir a criança com outro objeto pequeno.

Fig. 6. Um exemplo de utilização YOLO11 para detect peões na estrada.(Fonte)

Utilização de mAP para uma deteção precisa de produtos

Da mesma forma, no varejo, os modelos de detecção de objetos podem ser usados para automatizar tarefas como monitoramento de estoque e processos de checkout. Quando um cliente escaneia um produto em um self-checkout, um erro na detecção pode causar frustração.

Uma pontuação mAP elevada garante que o modelo distingue com exatidão produtos semelhantes e desenha caixas delimitadoras precisas, mesmo quando os artigos estão bem embalados. Uma pontuação baixa de mAP pode levar a confusões. Por exemplo, se o modelo confundir uma garrafa de sumo de laranja com uma garrafa de sumo de maçã visualmente semelhante, isso pode resultar numa faturação incorrecta e em relatórios de inventário imprecisos.

Os sistemas de retalho integrados com modelos como o YOLO11 podem detect produtos em tempo real, compará-los com o inventário e atualizar instantaneamente os sistemas backend. Em ambientes de retalho de ritmo acelerado, mAP desempenha um papel crucial para manter as operações precisas e fiáveis.

Melhorar a precisão do diagnóstico com mAP elevado nos cuidados de saúde

A melhoria da precisão do diagnóstico nos cuidados de saúde começa com uma deteção precisa na imagiologia médica. Modelos como o YOLO11 podem ajudar os radiologistas a detetar tumores, fracturas ou outras anomalias nesses exames médicos. Neste caso, a precisão média é uma métrica essencial para avaliar a fiabilidade clínica de um modelo.

Um mAP elevado indica que o modelo alcança uma elevada recuperação (identificando os problemas mais reais) e uma elevada precisão (evitando falsos alarmes), o que é crucial na tomada de decisões clínicas. Além disso, o limiar de IoU nos cuidados de saúde é frequentemente definido como muito elevado (0,85 ou 0,90) para garantir uma deteção extremamente precisa.

No entanto, uma pontuação mAP baixa pode suscitar preocupações. Digamos que um modelo não detecta um tumor, o que pode atrasar o diagnóstico ou conduzir a um tratamento incorreto. 

Prós e contras da utilização mAP

Aqui estão as principais vantagens de usar a precisão média (mean average precision) para avaliar modelos de detecção de objetos:

  • Métrica padronizada: mAP é o padrão da indústria para avaliar modelos de deteção de objectos. Um valor mAP permite comparações justas e consistentes entre diferentes modelos.
  • Reflecte o desempenho no mundo real: Um mAP elevado indica que o modelo é excelente na deteção de várias classes de objectos e mantém um forte desempenho em cenários complexos do mundo real.
  • Diagnóstico por classe: Uma pontuação mAP avalia o desempenho da deteção para cada classe individualmente. Isto facilita a identificação de categorias com fraco desempenho (como bicicletas ou sinais de trânsito) e o ajuste fino do modelo em conformidade.

Embora existam vários benefícios na utilização da métrica mAP , existem algumas limitações a considerar. Eis alguns factores a ter em conta:

  • Difícil para os intervenientes não técnicos: As equipas comerciais ou clínicas podem considerar os valores mAP abstractos, ao contrário de métricas mais intuitivas e fáceis de compreender.
  • Não reflecte as restrições do tempo real: mAP não tem em conta a velocidade ou a latência da inferência, que são cruciais para a implementação em aplicações sensíveis ao tempo.

Principais conclusões

Vimos que a precisão média não é apenas uma pontuação técnica, mas um reflexo do potencial desempenho de um modelo no mundo real. Quer se trate de um sistema de veículo autónomo ou de uma caixa de venda a retalho, uma pontuação mAP elevada é um indicador fiável do desempenho e da prontidão prática de um modelo.

Embora mAP seja uma métrica essencial e impactante, ele deve ser visto como parte de uma estratégia de avaliação completa. Para aplicações críticas como os cuidados de saúde e a condução autónoma, não é suficiente confiar apenas no mAP. 

Fatores adicionais como velocidade de inferência (quão rápido o modelo faz previsões), tamanho do modelo (impactando a implantação em dispositivos de borda) e análise qualitativa de erros (compreender os tipos de erros que o modelo comete) também devem ser considerados para garantir que o sistema seja seguro, eficiente e realmente adequado ao seu propósito.

Junte-se à nossa crescente comunidade e ao repositório GitHub para saber mais sobre visão computacional. Explore nossas páginas de soluções para aprender sobre aplicações de visão computacional na agricultura e IA na logística. Confira nossas opções de licenciamento para começar a usar seu próprio modelo de visão computacional hoje mesmo!

Vamos construir o futuro
da IA juntos!

Comece sua jornada com o futuro do aprendizado de máquina

Comece gratuitamente