Precisão Média (mAP): Detecção de Objetos

A adoção da IA está crescendo rapidamente, e a IA está sendo integrada em várias inovações, desde carros autônomos até sistemas de varejo que podem identificar produtos em uma prateleira. Essas tecnologias dependem da visão computacional, um ramo da inteligência artificial (IA) que permite que as máquinas analisem dados visuais.

Uma métrica de avaliação fundamental usada para medir a precisão de sistemas e algoritmos de visão computacional é a precisão média (mAP). A métrica mAP indica o quão perto a previsão de um modelo de Visão de IA corresponde aos resultados do mundo real.

Uma tarefa comum de visão computacional é a detecção de objetos, onde um modelo identifica múltiplos objetos em uma imagem e desenha caixas delimitadoras ao redor deles. mAP é a métrica padrão usada para avaliar o desempenho de modelos de detecção de objetos e é amplamente utilizada para comparar modelos de aprendizado profundo como o Ultralytics YOLO11.

Neste artigo, veremos como a precisão média (mean average precision) é calculada e por que ela é essencial para quem treina ou avalia modelos de detecção de objetos. Vamos começar!

O que é precisão média (mAP)?

A precisão média é uma pontuação que demonstra o quão preciso é um modelo de deep learning quando se trata de tarefas relacionadas à recuperação de informações visuais, como detectar e identificar diferentes objetos em uma imagem. Por exemplo, considere um modelo de detecção de objetos analisando uma foto que contém um cachorro, um gato e um carro. Um modelo confiável pode realizar a detecção de objetos reconhecendo cada objeto e desenhando bounding boxes e rótulos ao redor dele, destacando onde ele está e o que é.

O mAP indica o quão bem o modelo executa esta tarefa em muitas imagens e diferentes tipos de objetos. Ele verifica se o modelo identifica com precisão cada objeto e sua localização dentro da imagem. A pontuação varia de 0 a 1, onde um significa que o modelo encontrou tudo perfeitamente e zero significa que não conseguiu detectar nenhum objeto.

Conceitos-chave em 'mean average precision' (mAP)

Antes de explorarmos os conceitos por trás da precisão média (mean average precision) em machine learning, vamos entender melhor dois termos básicos: ground truth e previsões.

O termo ground truth (verdade fundamental) se refere aos dados de referência precisos, onde os objetos e suas localizações na imagem são cuidadosamente rotulados por humanos por meio de um processo conhecido como anotação. Enquanto isso, as predições são os resultados que os modelos de IA fornecem após analisar uma imagem. Ao comparar as predições do modelo de IA com o ground truth, podemos medir o quão perto o modelo chegou de obter os resultados corretos.

Fig 1. A predição do modelo e as bounding boxes (caixas delimitadoras) ground truth. Imagem do autor.

‍

Matriz de confusão

Uma matriz de confusão é frequentemente usada para entender o quão preciso é um modelo de detecção de objetos. É uma tabela que mostra como as previsões do modelo correspondem às respostas corretas reais (verdade fundamental). Desta tabela, podemos obter uma discriminação de quatro componentes ou resultados principais: verdadeiros positivos, falsos positivos, falsos negativos e verdadeiros negativos.

Aqui está o que esses componentes representam na matriz de confusão:

Verdadeiro positivo (VP): Um objeto e sua localização são detectados corretamente pelo modelo.
‍
Falso positivo (FP): O modelo fez uma detecção, mas estava incorreta.
‍
Falso negativo (FN): Um objeto que estava realmente presente na imagem, mas o modelo não conseguiu detectá-lo.
‍
Verdadeiro negativo (VN): Verdadeiros negativos ocorrem quando o modelo identifica corretamente a ausência de um objeto.

Os verdadeiros negativos não são comumente usados na detecção de objetos, já que normalmente ignoramos as muitas regiões vazias em uma imagem. No entanto, é essencial em outras tarefas de visão computacional, como classificação de imagens, onde o modelo atribui um rótulo à imagem. Por exemplo, se a tarefa é detectar se uma imagem contém um gato ou não, e o modelo identifica corretamente “nenhum gato” quando a imagem não contém um, isso é um verdadeiro negativo.

Fig 2. Resultados da classificação em uma matriz de confusão. Imagem do autor.

‍

Intersecção sobre União (IoU)

Outra métrica vital na avaliação de modelos de detecção de objetos é a Intersecção sobre União (IoU). Para tais modelos de Visão de IA, simplesmente detectar a presença de um objeto em uma imagem não é suficiente; também é necessário localizar onde ele está em uma imagem para desenhar caixas delimitadoras.

A métrica IoU mede o quão perto a caixa prevista pelo modelo corresponde à caixa real e correta (ground truth). A pontuação está entre 0 e 1, onde 1 significa uma correspondência perfeita e 0 significa nenhuma sobreposição.

Por exemplo, um IoU mais alto (como 0,80 ou 0,85) significa que a caixa prevista corresponde de perto à caixa ground-truth, indicando uma localização precisa. Um IoU mais baixo (como 0,30 ou 0,25) significa que o modelo não localizou o objeto com precisão.

Para determinar se uma detecção é bem-sucedida, usamos diferentes limiares. Um limiar IoU comum é 0,5, o que significa que uma caixa prevista deve se sobrepor à caixa de verdade terrestre em pelo menos 50% para ser contada como um verdadeiro positivo. Qualquer sobreposição abaixo deste limiar é considerada um falso positivo.

Fig 3. Entendendo a Intersecção sobre União. Imagem do autor.

‍

Precisão e recall

Até agora, exploramos algumas métricas de avaliação básicas para entender o desempenho dos modelos de detecção de objetos. Com base nisso, duas das métricas mais importantes são precisão e recall. Elas nos dão uma imagem clara de quão precisas são as detecções do modelo. Vamos dar uma olhada no que são.

Os valores de precisão nos dizem quantas das previsões do modelo estavam realmente corretas. Responde à pergunta: de todos os objetos que o modelo alegou detectar, quantos estavam realmente lá?

Os valores de Recall, por outro lado, medem o quão bem o modelo encontra todos os objetos reais presentes na imagem. Ele responde à pergunta: de todos os objetos reais presentes, quantos o modelo detectou corretamente?

Juntos, precisão e recall nos dão uma imagem mais clara de quão bem um modelo está funcionando. Por exemplo, se um modelo prevê 10 carros em uma imagem e 9 deles são realmente carros, ele tem uma precisão de 90% (uma previsão positiva).

Essas duas métricas de avaliação geralmente envolvem um trade-off: um modelo pode atingir um alto valor de precisão apenas fazendo previsões nas quais está totalmente confiante, mas isso pode fazer com que ele perca muitos objetos, o que diminui o nível de recall. Enquanto isso, ele também pode atingir um recall muito alto prevendo uma bounding box em quase todos os lugares, mas isso reduziria a precisão.

Fig 4. Precisão e recall. Imagem do autor.

‍

Precisão média

Embora precisão e recall nos ajudem a entender como um modelo se comporta em previsões individuais, a Precisão Média (AP) pode fornecer uma visão mais ampla. Ela ilustra como a precisão do modelo muda à medida que ele tenta detectar mais objetos e resume seu desempenho em um único número.

Para calcular a pontuação média de precisão, podemos primeiro criar uma métrica combinada semelhante a um gráfico, chamada curva de precisão-recall (ou curva PR) para cada tipo de objeto. Esta curva mostra o que acontece à medida que o modelo faz mais previsões.

Considere um cenário em que o modelo começa por detetar apenas os objetos mais fáceis ou mais óbvios. Nesta fase, a precisão é elevada porque a maioria das previsões está correta, mas o recall é baixo, uma vez que muitos objetos ainda não são detetados. À medida que o modelo tenta detetar mais objetos, incluindo os mais difíceis ou mais raros, geralmente introduz mais erros. Isto faz com que a precisão diminua enquanto o recall aumenta.

A precisão média é a área sob a curva (AUC da curva PR). Uma área maior significa que o modelo é melhor em manter suas previsões precisas, mesmo ao detectar mais objetos. O AP é calculado separadamente para cada rótulo de classe.

Por exemplo, em um modelo que pode detectar carros, bicicletas e pedestres, podemos calcular os valores de AP individualmente para cada uma dessas três categorias. Isso nos ajuda a ver quais objetos o modelo é bom em detectar e onde ele ainda pode precisar de melhorias.

Fig 5. Uma curva PR para cinco classes diferentes. (Fonte)

‍

Precisão média (Mean Average Precision)

Após calcular a precisão média para cada classe de objeto, ainda precisamos de uma única pontuação que reflita o desempenho geral do modelo em todas as classes. Isso pode ser alcançado usando a fórmula da precisão média (mAP). Ela calcula a média das pontuações de AP para cada categoria.

Por exemplo, vamos assumir que um modelo de visão computacional como o YOLO11 atinge um AP de 0,827 para carros, 0,679 para motocicletas, 0,355 para camiões, 0,863 para autocarros e 0,982 para bicicletas. Usando a fórmula mAP, podemos adicionar estes números e dividir pelo número total de classes da seguinte forma:

mAP = (0,827 + 0,679 + 0,355 + 0,863 + 0,982) ÷ 5 = 0,7432 ≈ 0,743

‍

A pontuação mAP de 0,743 fornece uma solução direta para avaliar o desempenho do modelo em todas as classes de objetos. Um valor próximo de 1 significa que o modelo é preciso para a maioria das categorias, enquanto um valor mais baixo sugere que ele tem dificuldades com algumas.

Significado de AP e mAP em visão computacional

Agora que temos uma melhor compreensão de como AP e mAP são calculados e quais são seus componentes, aqui está uma visão geral de sua importância na visão computacional:

AP baixo para uma classe específica: Um AP baixo para uma única classe geralmente significa que o modelo tem dificuldades com essa classe de objeto específica. Isso pode ser devido a dados de treinamento insuficientes ou desafios visuais nas imagens, como oclusão.

Erros de localização: Um valor de mAP mais alto num limiar de IoU mais baixo (como mAP@0.50) combinado com uma queda significativa num limiar de IoU mais alto (como mAP@0.75) indica que o modelo consegue detetar objetos, mas tem dificuldades em localizá-los com precisão.

Overfitting: Um valor de mAP mais alto no conjunto de dados de treinamento, mas um valor de mAP mais baixo no conjunto de dados de validação é um sinal de overfitting, tornando o modelo não confiável para novas imagens.

Aplicações no mundo real da precisão média (mean average precision)

Em seguida, vamos explorar como métricas-chave como o mAP podem ajudar na construção de casos de uso de visão computacional no mundo real.

Veículos autônomos: Por que um valor de mAP mais alto significa estradas mais seguras

Quando se trata de carros autônomos, a detecção de objetos é crucial para identificar pedestres, placas de trânsito, ciclistas e marcações de faixa. Por exemplo, se uma criança de repente atravessar a rua correndo, o carro tem segundos para detectar o objeto (criança), localizar onde ele está, rastrear seu movimento e tomar as medidas necessárias (acionar os freios).

Modelos como o YOLO11 são projetados para detecção de objetos em tempo real em cenários de alto risco. Nesses casos, o mAP se torna uma medida crítica de segurança.

Uma alta pontuação de mAP garante que o sistema detecte a criança rapidamente, a localize com precisão e acione a frenagem com o mínimo de atraso. Um baixo mAP pode significar detecções perdidas ou classificações incorretas perigosas, como confundir a criança com outro objeto pequeno.

Fig 6. Um exemplo de YOLO11 sendo usado para detectar pedestres na estrada. (Fonte)

‍

Usando mAP para detecção precisa de produtos

Da mesma forma, no varejo, os modelos de detecção de objetos podem ser usados para automatizar tarefas como monitoramento de estoque e processos de checkout. Quando um cliente escaneia um produto em um self-checkout, um erro na detecção pode causar frustração.

Uma alta pontuação de mAP garante que o modelo distinga com precisão entre produtos semelhantes e desenhe caixas delimitadoras precisas, mesmo quando os itens estão bem embalados. Uma baixa pontuação de mAP pode levar a confusões. Por exemplo, se o modelo confundir uma garrafa de suco de laranja com uma garrafa de suco de maçã visualmente semelhante, isso pode resultar em faturamento incorreto e relatórios de estoque imprecisos.

Sistemas de varejo integrados com modelos como o YOLO11 podem detectar produtos em tempo real, verificá-los em relação ao inventário e atualizar os sistemas de backend instantaneamente. Em ambientes de varejo de ritmo acelerado, o mAP desempenha um papel crucial para manter as operações precisas e confiáveis.

Melhorando a precisão diagnóstica com alto mAP na área da saúde

Melhorar a precisão do diagnóstico na área da saúde começa com a detecção precisa em imagens médicas. Modelos como o YOLO11 podem ajudar os radiologistas a identificar tumores, fraturas ou outras anomalias nesses exames médicos. Aqui, a precisão média é uma métrica essencial para avaliar a confiabilidade clínica de um modelo.

Um alto mAP indica que o modelo alcança tanto um alto recall (identificando a maioria dos problemas reais) quanto uma alta precisão (evitando alarmes falsos), o que é crucial na tomada de decisões clínicas. Além disso, o limite de IoU na área da saúde é frequentemente definido muito alto (0,85 ou 0,90) para garantir uma detecção extremamente precisa.

No entanto, uma pontuação mAP baixa pode levantar preocupações. Digamos que um modelo não detecte um tumor; isso pode atrasar o diagnóstico ou levar a um tratamento incorreto.

Prós e contras do uso de mAP

Aqui estão as principais vantagens de usar a precisão média (mean average precision) para avaliar modelos de detecção de objetos:

Métrica padronizada: mAP é o padrão da indústria para avaliar modelos de detecção de objetos. Um valor de mAP permite comparações justas e consistentes entre diferentes modelos.

Reflete o desempenho no mundo real: Um mAP alto indica que o modelo se destaca na detecção de várias classes de objetos e mantém um forte desempenho em cenários complexos do mundo real.

Diagnósticos por classe: Uma pontuação mAP avalia o desempenho da detecção para cada classe individualmente. Isso torna mais fácil identificar categorias com baixo desempenho (como bicicletas ou placas de rua) e ajustar o modelo de acordo.

Embora existam vários benefícios no uso da métrica mAP, existem algumas limitações a serem consideradas. Aqui estão alguns fatores a serem levados em conta:

Difícil para stakeholders não técnicos: As equipas empresariais ou clínicas podem achar os valores de mAP abstratos, ao contrário de métricas mais intuitivas e fáceis de entender.

Não reflete restrições em tempo real: o mAP não leva em consideração a velocidade de inferência ou a latência, que são cruciais para a implantação em aplicações sensíveis ao tempo.

Principais conclusões

Vimos que a precisão média (mAP) não é apenas uma pontuação técnica, mas um reflexo do potencial de desempenho do modelo no mundo real. Seja em um sistema de veículo autônomo ou em um checkout de varejo, uma alta pontuação de mAP serve como um indicador confiável do desempenho e da prontidão prática de um modelo.

Embora o mAP seja uma métrica essencial e impactante, ele deve ser visto como parte de uma estratégia de avaliação completa. Para aplicações críticas, como saúde e direção autônoma, não é suficiente confiar apenas no mAP.

Fatores adicionais como velocidade de inferência (quão rápido o modelo faz previsões), tamanho do modelo (impactando a implantação em dispositivos de borda) e análise qualitativa de erros (compreender os tipos de erros que o modelo comete) também devem ser considerados para garantir que o sistema seja seguro, eficiente e realmente adequado ao seu propósito.

Junte-se à nossa crescente comunidade e ao repositório GitHub para saber mais sobre visão computacional. Explore nossas páginas de soluções para aprender sobre aplicações de visão computacional na agricultura e IA na logística. Confira nossas opções de licenciamento para começar a usar seu próprio modelo de visão computacional hoje mesmo!

Precisão média (mAP) em detecção de objetos

O que é precisão média (mAP)?