Compreender a precisão média (mAP) na deteção de objectos. Saiba o seu significado, cálculo e porque é que a mAP é fundamental para avaliar o desempenho do modelo.

Compreender a precisão média (mAP) na deteção de objectos. Saiba o seu significado, cálculo e porque é que a mAP é fundamental para avaliar o desempenho do modelo.
A adoção da IA está a crescer rapidamente e a IA está a ser integrada em várias inovações, desde carros autónomos a sistemas de retalho que conseguem identificar produtos numa prateleira. Estas tecnologias baseiam-se na visão por computador, um ramo da inteligência artificial (IA) que permite às máquinas analisar dados visuais.
Uma métrica de avaliação fundamental utilizada para medir a exatidão dos sistemas e algoritmos de visão computacional é a precisão média (mAP). A métrica mAP indica a proximidade entre a previsão de um modelo de IA de visão e os resultados do mundo real.
Uma tarefa comum de visão computacional é a deteção de objectos, em que um modelo identifica vários objectos numa imagem e desenha caixas delimitadoras à sua volta. O mAP é a métrica padrão utilizada para avaliar o desempenho dos modelos de deteção de objectos e é amplamente utilizado para aferir modelos de aprendizagem profunda como o Ultralytics YOLO11.
Neste artigo, veremos como é calculada a precisão média e porque é essencial para qualquer pessoa que treine ou avalie modelos de deteção de objectos. Vamos começar!
A precisão média é uma pontuação que mostra a precisão de um modelo de aprendizagem profunda quando se trata de tarefas relacionadas com a recuperação de informações visuais, como a deteção e identificação de diferentes objectos numa imagem. Por exemplo, considere um modelo de deteção de objectos que analisa uma fotografia que contém um cão, um gato e um carro. Um modelo fiável pode efetuar a deteção de objectos reconhecendo cada objeto e desenhando caixas delimitadoras e etiquetas à sua volta, destacando onde se encontra e o que é.
O mAP indica a qualidade com que o modelo executa esta tarefa em muitas imagens e diferentes tipos de objectos. Verifica se o modelo identifica com precisão cada objeto e a sua localização na imagem. A pontuação varia entre 0 e 1, em que um significa que o modelo encontrou tudo perfeitamente e zero significa que não conseguiu detetar quaisquer objectos.
Antes de explorarmos os conceitos subjacentes à precisão média na aprendizagem automática, vamos compreender melhor dois termos básicos: verdade fundamental e previsões.
A verdade fundamental refere-se aos dados de referência exactos, em que os objectos e as suas localizações na imagem são cuidadosamente identificados por humanos através de um processo conhecido como anotação. Entretanto, as previsões são os resultados que os modelos de IA fornecem depois de analisarem uma imagem. Ao comparar as previsões do modelo de IA com a verdade fundamental, podemos medir a proximidade do modelo em relação aos resultados corretos.
Uma matriz de confusão é frequentemente utilizada para compreender a precisão de um modelo de deteção de objectos. Trata-se de uma tabela que mostra como as previsões do modelo correspondem às respostas corretas reais (verdade terrestre). A partir desta tabela, podemos obter uma análise de quatro componentes ou resultados principais: verdadeiros positivos, falsos positivos, falsos negativos e verdadeiros negativos.
Eis o que estes componentes representam na matriz de confusão:
Os verdadeiros negativos não são normalmente utilizados na deteção de objectos, uma vez que normalmente ignoramos as muitas regiões vazias de uma imagem. No entanto, é essencial noutras tarefas de visão computacional, como a classificação de imagens, em que o modelo atribui um rótulo à imagem. Por exemplo, se a tarefa é detetar se uma imagem contém um gato ou não, e o modelo identifica corretamente "nenhum gato" quando a imagem não contém um, trata-se de um verdadeiro negativo.
Outra métrica vital na avaliação dos modelos de deteção de objectos é a Intersecção sobre União (IoU). Para estes modelos de IA de visão, a simples deteção da presença de um objeto numa imagem não é suficiente; é também necessário localizar onde se encontra numa imagem para desenhar caixas delimitadoras.
A métrica IoU mede a proximidade entre a caixa prevista pelo modelo e a caixa real e correta (verdade terrestre). A pontuação varia entre 0 e 1, em que 1 significa uma correspondência perfeita e 0 significa que não existe qualquer sobreposição.
Por exemplo, um IoU mais elevado (como 0,80 ou 0,85) significa que a caixa prevista é uma correspondência próxima da caixa da verdade terrestre, indicando uma localização exacta. Um IoU mais baixo (como 0,30 ou 0,25) significa que o modelo não localizou o objeto com precisão.
Para determinar se uma deteção é bem sucedida, utilizamos diferentes limiares. Um limiar de IoU comum é 0,5, o que significa que uma caixa prevista deve sobrepor-se à caixa da verdade terrestre em pelo menos 50% para ser contada como um verdadeiro positivo. Qualquer sobreposição abaixo deste limiar é considerada um falso positivo.
Até agora, explorámos algumas métricas de avaliação básicas para compreender o desempenho dos modelos de deteção de objectos. Com base nisto, duas das métricas mais importantes são a precisão e a recuperação. Estas dão-nos uma imagem clara da precisão das detecções do modelo. Vamos ver o que são.
Os valores de precisão dizem-nos quantas das previsões do modelo estavam realmente corretas. Respondem à pergunta: de todos os objectos que o modelo afirmava detetar, quantos estavam realmente lá?
Os valores de recuperação, por outro lado, medem a capacidade do modelo para encontrar todos os objectos reais presentes na imagem. Respondem à pergunta: de todos os objectos reais presentes, quantos é que o modelo detectou corretamente?
Em conjunto, a precisão e a recuperação dão-nos uma imagem mais clara do desempenho de um modelo. Por exemplo, se um modelo prevê 10 carros numa imagem e 9 deles são de facto carros, tem uma precisão de 90% (uma previsão positiva).
Estas duas métricas de avaliação envolvem muitas vezes um compromisso: um modelo pode atingir um valor de precisão elevado fazendo apenas previsões em que está totalmente confiante, mas isso pode fazer com que falhe muitos objectos, o que reduz o nível de recuperação. Entretanto, também pode atingir uma recuperação muito elevada ao prever uma caixa delimitadora em quase todo o lado, mas isso reduziria a precisão.
Enquanto a precisão e a recuperação nos ajudam a compreender o desempenho de um modelo em previsões individuais, a precisão média (AP) pode fornecer uma visão mais ampla. Ilustra a forma como a precisão do modelo muda à medida que tenta detetar mais objectos e resume o seu desempenho num único número.
Para calcular a pontuação média de precisão, podemos primeiro criar uma métrica semelhante a um gráfico combinado chamada curva de precisão-recordação (ou curva PR) para cada tipo de objeto. Esta curva mostra o que acontece à medida que o modelo faz mais previsões.
Considere-se um cenário em que o modelo começa por detetar apenas os objectos mais fáceis ou mais óbvios. Nesta fase, a precisão é elevada porque a maior parte das previsões estão corretas, mas a recuperação é baixa, uma vez que muitos objectos continuam a não ser detectados. À medida que o modelo tenta detetar mais objectos, incluindo os mais difíceis ou mais raros, normalmente introduz mais erros. Isto faz com que a precisão diminua enquanto a recuperação aumenta.
A precisão média é a área sob a curva (AUC da curva PR). Uma área maior significa que o modelo é melhor a manter as suas previsões exactas, mesmo quando detecta mais objectos. A AP é calculada separadamente para cada etiqueta de classe.
Por exemplo, num modelo que consegue detetar carros, bicicletas e peões, podemos calcular os valores de AP individualmente para cada uma dessas três categorias. Isto ajuda-nos a ver quais os objectos que o modelo é bom a detetar e onde ainda precisa de ser melhorado.
Depois de calcular a precisão média para cada classe de objeto, precisamos ainda de uma pontuação única que reflicta o desempenho global do modelo em todas as classes. Isto pode ser conseguido utilizando a fórmula da precisão média . Esta fórmula calcula a média das pontuações AP para cada categoria.
Por exemplo, vamos assumir que um modelo de visão computacional como o YOLO11 atinge um PA de 0,827 para automóveis, 0,679 para motociclos, 0,355 para camiões, 0,863 para autocarros e 0,982 para bicicletas. Utilizando a fórmula mAP, podemos somar estes números e dividir pelo número total de classes da seguinte forma:
mAP = (0,827 + 0,679 + 0,355 + 0,863 + 0,982) ÷ 5 = 0,7432 ≈ 0,743
A pontuação mAP de 0,743 fornece uma solução simples para avaliar o desempenho do modelo em todas as classes de objectos. Um valor próximo de 1 significa que o modelo é exato para a maioria das categorias, enquanto um valor inferior sugere que tem dificuldades com algumas.
Agora que compreendemos melhor como o AP e o mAP são calculados e quais são os seus componentes, eis uma visão geral do seu significado na visão por computador:
Em seguida, vamos explorar a forma como as principais métricas, como o mAP, podem ajudar na criação de casos de utilização de visão computacional no mundo real.
No que diz respeito aos automóveis autónomos, a deteção de objectos é crucial para identificar peões, sinais de trânsito, ciclistas e marcações na faixa de rodagem. Por exemplo, se uma criança atravessar a rua de repente, o automóvel tem segundos para detetar o objeto (criança), localizar onde se encontra, seguir o seu movimento e tomar as medidas necessárias (travar).
Modelos como o YOLO11 foram concebidos para a deteção de objectos em tempo real em cenários de alto risco. Nestes casos, o mAP torna-se uma medida crítica de segurança.
Uma pontuação mAP elevada garante que o sistema detecta a criança rapidamente, localiza-a com precisão e desencadeia a travagem com um atraso mínimo. Um mAP baixo pode significar detecções perdidas ou classificações erradas perigosas, como confundir a criança com outro objeto pequeno.
Do mesmo modo, no comércio retalhista, os modelos de deteção de objectos podem ser utilizados para automatizar tarefas como a monitorização de stocks e os processos de checkout. Quando um cliente digitaliza um produto numa caixa de pagamento automática, um erro na deteção pode causar frustração.
Uma pontuação mAP elevada garante que o modelo distingue com exatidão produtos semelhantes e desenha caixas delimitadoras precisas, mesmo quando os artigos estão bem embalados. Uma pontuação baixa de mAP pode levar a confusões. Por exemplo, se o modelo confundir uma garrafa de sumo de laranja com uma garrafa de sumo de maçã visualmente semelhante, isso pode resultar numa faturação incorrecta e em relatórios de inventário imprecisos.
Os sistemas de retalho integrados com modelos como o YOLO11 podem detetar produtos em tempo real, compará-los com o inventário e atualizar instantaneamente os sistemas backend. Em ambientes de retalho de ritmo acelerado, o mAP desempenha um papel crucial para manter as operações precisas e fiáveis.
A melhoria da precisão do diagnóstico nos cuidados de saúde começa com uma deteção precisa na imagiologia médica. Modelos como o YOLO11 podem ajudar os radiologistas a detetar tumores, fracturas ou outras anomalias nesses exames médicos. Neste caso, a precisão média é uma métrica essencial para avaliar a fiabilidade clínica de um modelo.
Um mAP elevado indica que o modelo alcança uma elevada recuperação (identificando os problemas mais reais) e uma elevada precisão (evitando falsos alarmes), o que é crucial na tomada de decisões clínicas. Além disso, o limiar de IoU nos cuidados de saúde é frequentemente definido como muito elevado (0,85 ou 0,90) para garantir uma deteção extremamente precisa.
No entanto, uma pontuação mAP baixa pode suscitar preocupações. Digamos que um modelo não detecta um tumor, o que pode atrasar o diagnóstico ou conduzir a um tratamento incorreto.
Eis as principais vantagens da utilização da precisão média para avaliar os modelos de deteção de objectos:
Embora existam vários benefícios na utilização da métrica mAP, existem algumas limitações a considerar. Eis alguns factores a ter em conta:
Vimos que a precisão média não é apenas uma pontuação técnica, mas um reflexo do potencial desempenho de um modelo no mundo real. Quer se trate de um sistema de veículo autónomo ou de uma caixa de venda a retalho, uma pontuação mAP elevada é um indicador fiável do desempenho e da prontidão prática de um modelo.
Embora o mAP seja uma métrica essencial e impactante, ele deve ser visto como parte de uma estratégia de avaliação completa. Para aplicações críticas como os cuidados de saúde e a condução autónoma, não é suficiente confiar apenas no mAP.
Factores adicionais, como a velocidade de inferência (a rapidez com que o modelo faz previsões), o tamanho do modelo (que afecta a implementação em dispositivos periféricos) e a análise qualitativa de erros (compreensão dos tipos de erros que o modelo comete) também devem ser considerados para garantir que o sistema é seguro, eficiente e verdadeiramente adequado para o fim a que se destina.
Junte-se à nossa crescente comunidade e ao repositório GitHub para saber mais sobre visão computacional. Explore nossas páginas de soluções para saber mais sobre aplicações de visão computacional na agricultura e IA em logística. Confira nossas opções de licenciamento para começar a usar seu próprio modelo de visão computacional hoje mesmo!