Conheça o YOLO26: IA de visão de próxima geração.
Ultralytics
Guias

Precisão média (mAP) na deteção de objetos

Compreende a Precisão Média (mAP) na Deteção de Objetos. Aprende o seu significado, cálculo e por que a mAP é fundamental para avaliar o desempenho do modelo.

ABAbirami Vina
6 min read
Caixas delimitadoras previstas e reais (ground truth) usadas para calcular a mAP

A adoção da IA está crescendo rapidamente, e a IA está sendo integrada em várias inovações, desde carros autônomos até sistemas de varejo que conseguem identificar produtos em uma prateleira. Essas tecnologias dependem da visão computacional, um ramo da inteligência artificial (IA) que permite que máquinas analisem dados visuais.

Uma métrica de avaliação fundamental usada para medir a precisão de sistemas e algoritmos de visão computacional é a precisão média (mAP). A métrica mAP indica o quanto a previsão de um modelo de IA de visão corresponde aos resultados do mundo real.

Uma tarefa comum de visão computacional é a detecção de objetos, onde um modelo identifica múltiplos objetos em uma imagem e desenha caixas delimitadoras ao redor deles. O mAP é a métrica padrão usada para avaliar o desempenho de modelos de detecção de objetos e é amplamente utilizada para comparar modelos de aprendizado profundo, como o Ultralytics YOLO11.

Neste artigo, veremos como a precisão média é calculada e por que ela é essencial para qualquer pessoa que esteja treinando ou avaliando modelos de detecção de objetos. Vamos começar!

Link to this sectionO que é precisão média (mAP)?#

A precisão média é uma pontuação que demonstra o quão preciso é um modelo de aprendizado profundo em tarefas relacionadas à recuperação de informações visuais, como detectar e identificar diferentes objetos em uma imagem. Por exemplo, considere um modelo de detecção de objetos analisando uma foto que contém um cachorro, um gato e um carro. Um modelo confiável pode realizar a detecção de objetos reconhecendo cada item e desenhando caixas delimitadoras e rótulos ao redor dele, destacando onde ele está e o que é.

O mAP indica o desempenho do modelo nesta tarefa em várias imagens e diferentes tipos de objetos. Ele verifica se o modelo identifica com precisão cada objeto e sua localização dentro da imagem. A pontuação varia de 0 a 1, onde um significa que o modelo encontrou tudo perfeitamente e zero significa que ele falhou ao detectar qualquer objeto.

Link to this sectionConceitos-chave na precisão média (mAP)#

Antes de explorarmos os conceitos por trás da precisão média no aprendizado de máquina, vamos entender melhor dois termos básicos: ground truth e previsões.

Ground truth refere-se aos dados de referência precisos, onde objetos e suas localizações na imagem são cuidadosamente rotulados por humanos através de um processo conhecido como anotação. Enquanto isso, previsões são os resultados que os modelos de IA fornecem após analisar uma imagem. Ao comparar as previsões do modelo de IA com o ground truth, podemos medir o quão próximo o modelo chegou de obter os resultados corretos.

Previsão do modelo e caixas delimitadoras de ground truth comparadas

Fig 1. A previsão do modelo e as caixas delimitadoras de ground truth. Imagem pelo autor.

Link to this sectionMatriz de confusão#

Uma matriz de confusão é frequentemente usada para entender quão preciso é um modelo de detecção de objetos. É uma tabela que mostra como as previsões do modelo correspondem às respostas corretas reais (ground truth). A partir desta tabela, podemos obter um detalhamento de quatro componentes ou resultados-chave: verdadeiros positivos, falsos positivos, falsos negativos e verdadeiros negativos.

Aqui está o que esses componentes representam na matriz de confusão:

  • Verdadeiro positivo (TP): Um objeto e sua localização são detectados corretamente pelo modelo.
  • Falso positivo (FP): O modelo fez uma detecção, mas estava incorreta.
  • Falso negativo (FN): Um objeto que estava realmente presente na imagem, mas o modelo falhou em detectá-lo.
  • Verdadeiro negativo (TN): Verdadeiros negativos ocorrem quando o modelo identifica corretamente a ausência de um objeto.

Verdadeiros negativos não são comumente usados na detecção de objetos, já que normalmente ignoramos as muitas regiões vazias em uma imagem. No entanto, é essencial em outras tarefas de visão computacional, como classificação de imagem, onde o modelo atribui um rótulo à imagem. Por exemplo, se a tarefa é detectar se uma imagem contém um gato ou não, e o modelo identifica corretamente “sem gato” quando a imagem não contém um, isso é um verdadeiro negativo.

Resultados de classificação mostrados em uma matriz de confusão

Fig 2. Resultados de classificação em uma matriz de confusão. Imagem pelo autor.

Link to this sectionIntersection over Union (IoU)#

Outra métrica vital na avaliação de modelos de detecção de objetos é a Intersection over Union (IoU). Para tais modelos de IA de visão, apenas detectar a presença de um objeto em uma imagem não é suficiente; ele também precisa localizar onde ele está na imagem para desenhar caixas delimitadoras.

A métrica IoU mede o quanto a caixa prevista pelo modelo corresponde à caixa real e correta (ground truth). A pontuação fica entre 0 e 1, onde 1 significa uma correspondência perfeita e 0 significa nenhuma sobreposição.

Por exemplo, um IoU mais alto (como 0.80 ou 0.85) significa que a caixa prevista é uma correspondência próxima da caixa de ground truth, indicando uma localização precisa. Um IoU mais baixo (como 0.30 ou 0.25) significa que o modelo não localizou o objeto com precisão.

Para determinar se uma detecção é bem-sucedida, usamos diferentes limiares. Um limiar de IoU comum é 0.5, o que significa que uma caixa prevista deve se sobrepor à caixa de ground truth em pelo menos 50% para ser contada como um verdadeiro positivo. Qualquer sobreposição abaixo deste limiar é considerada um falso positivo.

Diagrama explicando Intersection over Union

Fig 3. Entendendo Intersection over Union. Imagem pelo autor.

Link to this sectionPrecisão e recall#

Até agora, exploramos algumas métricas de avaliação básicas para entender o desempenho de modelos de detecção de objetos. Com base nisso, duas das métricas mais importantes são precisão e recall. Elas nos dão uma imagem clara de quão precisas são as detecções do modelo. Vamos dar uma olhada no que são.

Valores de precisão nos dizem quantas das previsões do modelo estavam realmente corretas. Ela responde à pergunta: de todos os objetos que o modelo alegou detectar, quantos estavam realmente lá?

Valores de recall, por outro lado, medem o quão bem o modelo encontra todos os objetos reais presentes na imagem. Ele responde à pergunta: de todos os objetos reais presentes, quantos o modelo detectou corretamente?

Juntos, precisão e recall nos dão uma visão mais clara do desempenho de um modelo. Por exemplo, se um modelo prevê 10 carros em uma imagem e 9 deles são de fato carros, ele tem uma precisão de 90% (uma previsão positiva).

Essas duas métricas de avaliação geralmente envolvem um equilíbrio: um modelo pode atingir um valor de precisão alto fazendo apenas previsões em que está totalmente confiante, mas isso pode fazer com que ele perca muitos objetos, o que reduz o nível de recall. Enquanto isso, ele também pode atingir um recall muito alto prevendo uma caixa delimitadora em quase toda parte, mas isso reduziria a precisão.

Diagrama ilustrando precisão e recall

Fig 4. Precisão e recall. Imagem pelo autor.

Link to this sectionPrecisão média#

Embora a precisão e o recall nos ajudem a entender como um modelo funciona em previsões individuais, a precisão média (AP) pode fornecer uma visão mais ampla. Ela ilustra como a precisão do modelo muda à medida que ele tenta detectar mais objetos e resume seu desempenho em um único número.

Para calcular a pontuação de precisão média, podemos primeiro criar uma métrica combinada semelhante a um gráfico chamada curva de precisão-recall (ou curva PR) para cada tipo de objeto. Essa curva mostra o que acontece à medida que o modelo faz mais previsões.

Considere um cenário onde o modelo começa detectando apenas os objetos mais fáceis ou mais óbvios. Nesta fase, a precisão é alta porque a maioria das previsões está correta, mas o recall é baixo, já que muitos objetos ainda não são detectados. À medida que o modelo tenta detectar mais objetos, incluindo os mais difíceis ou raros, ele geralmente introduz mais erros. Isso faz com que a precisão caia enquanto o recall aumenta.

A precisão média é a área sob a curva (AUC da curva PR). Uma área maior significa que o modelo é melhor em manter suas previsões precisas, mesmo enquanto detecta mais objetos. O AP é calculado separadamente para cada rótulo de classe.

Por exemplo, em um modelo que consegue detectar carros, bicicletas e pedestres, podemos calcular os valores de AP individualmente para cada uma dessas três categorias. Isso nos ajuda a ver quais objetos o modelo é bom em detectar e onde ele ainda pode precisar de melhorias.

Curva de precisão-recall para cinco classes diferentes

Fig 5. Uma curva PR para cinco classes diferentes. (Fonte)

Link to this sectionPrecisão média#

Após calcular a precisão média para cada classe de objeto, ainda precisamos de uma única pontuação que reflita o desempenho geral do modelo em todas as classes. Isso pode ser alcançado usando a fórmula de precisão média. Ela calcula a média das pontuações de AP para cada categoria.

Por exemplo, vamos supor que um modelo de visão computacional como o YOLO11 atinja um AP de 0.827 para carros, 0.679 para motocicletas, 0.355 para caminhões, 0.863 para ônibus e 0.982 para bicicletas. Usando a fórmula de mAP, podemos somar esses números e dividir pelo número total de classes da seguinte forma:

mAP = (0.827 + 0.679 + 0.355 + 0.863 + 0.982) ÷ 5 = 0.7432 ≈ 0.743

A pontuação mAP de 0.743 oferece uma solução direta para julgar quão bem o modelo funciona em todas as classes de objetos. Um valor próximo de 1 significa que o modelo é preciso para a maioria das categorias, enquanto um valor mais baixo sugere que ele tem dificuldades com algumas.

Link to this sectionSignificado de AP e mAP em visão computacional#

Agora que temos uma compreensão melhor de como o AP e o mAP são calculados e quais são seus componentes, aqui está uma visão geral de seu significado em visão computacional:

  • AP baixo para uma classe específica: Um AP baixo para uma única classe geralmente significa que o modelo tem dificuldades com essa classe de objeto específica. Isso pode ser devido a dados de treinamento insuficientes ou desafios visuais nas imagens, como oclusão.

  • Erros de localização: Um valor de mAP maior em um limiar de IoU mais baixo (como mAP@0.50) combinado com uma queda significativa em um limiar de IoU mais alto (como mAP@0.75) indica que o modelo consegue detectar objetos, mas tem dificuldades para localizá-los com precisão.

  • Overfitting: Um valor de mAP maior no conjunto de dados de treinamento, mas um valor de mAP menor no conjunto de dados de validação é um sinal de overfitting, tornando o modelo não confiável para novas imagens.

Link to this sectionAplicações reais da precisão média#

Em seguida, vamos explorar como métricas-chave como o mAP podem ajudar ao construir casos de uso de visão computacional no mundo real.

Link to this sectionVeículos autônomos: Por que um valor de mAP maior significa estradas mais seguras#

Quando se trata de carros autônomos, a detecção de objetos é crucial para identificar pedestres, sinais de trânsito, ciclistas e marcações de faixa. Por exemplo, se uma criança corre repentinamente pela rua, o carro tem segundos para detectar o objeto (criança), localizar onde ele está, rastrear seu movimento e tomar a ação necessária (acionar os freios).

Modelos como o YOLO11 são projetados para detecção de objetos em tempo real em cenários de alto risco. Nesses casos, o mAP torna-se uma medida crítica de segurança.

Uma pontuação mAP alta garante que o sistema detecte a criança rapidamente, localize-a com precisão e acione a frenagem com o mínimo de atraso. Um mAP baixo pode significar detecções perdidas ou classificações incorretas perigosas, como confundir a criança com outro objeto pequeno.

YOLO11 detectando pedestres na estrada

Fig 6. Um exemplo do YOLO11 sendo usado para detectar pedestres na estrada. (Fonte)

Link to this sectionUsando mAP para detecção precisa de produtos#

Da mesma forma, no varejo, modelos de detecção de objetos podem ser usados para automatizar tarefas como monitoramento de estoque e processos de checkout. Quando um cliente escaneia um produto em um caixa automático, um erro na detecção pode causar frustração.

Uma pontuação mAP alta garante que o modelo distinga com precisão produtos semelhantes e desenhe caixas delimitadoras precisas, mesmo quando os itens estão muito próximos. Uma pontuação mAP baixa pode levar a confusões. Por exemplo, se o modelo confunde uma garrafa de suco de laranja com uma garrafa de suco de maçã visualmente semelhante, isso pode resultar em cobrança incorreta e relatórios de estoque imprecisos.

Sistemas de varejo integrados com modelos como o YOLO11 podem detectar produtos em tempo real, verificá-los com o estoque e atualizar sistemas de backend instantaneamente. Em ambientes de varejo de ritmo acelerado, o mAP desempenha um papel crucial em manter as operações precisas e confiáveis.

Link to this sectionMelhorando a precisão diagnóstica com alto mAP na saúde#

Melhorar a precisão diagnóstica na saúde começa com a detecção precisa em imagens médicas. Modelos como o YOLO11 podem ajudar radiologistas a detectar tumores, fraturas ou outras anomalias a partir desses exames médicos. Aqui, a precisão média é uma métrica essencial para avaliar a confiabilidade clínica de um modelo.

Um mAP alto indica que o modelo atinge tanto um alto recall (identificando a maioria dos problemas reais) quanto uma alta precisão (evitando alarmes falsos), o que é crucial na tomada de decisão clínica. Além disso, o limiar de IoU na saúde é frequentemente definido como muito alto (0.85 ou 0.90) para garantir uma detecção extremamente precisa.

No entanto, uma pontuação mAP baixa pode levantar preocupações. Digamos que um modelo perca um tumor; isso pode atrasar o diagnóstico ou levar a um tratamento incorreto.

Link to this sectionPrós e contras do uso de mAP#

Aqui estão as principais vantagens de usar a precisão média para avaliar modelos de detecção de objetos:

  • Métrica padronizada: O mAP é o padrão da indústria para avaliar modelos de detecção de objetos. Um valor de mAP permite comparações justas e consistentes entre diferentes modelos.

  • Reflete o desempenho no mundo real: Um mAP alto indica que o modelo se destaca na detecção de várias classes de objetos e mantém um forte desempenho em cenários complexos do mundo real.

  • Diagnósticos por classe: Uma pontuação mAP avalia o desempenho de detecção para cada classe individualmente. Isso torna mais fácil identificar categorias com baixo desempenho (como bicicletas ou sinais de trânsito) e ajustar o modelo de acordo.

Embora existam vários benefícios no uso da métrica mAP, há algumas limitações a serem consideradas. Aqui estão alguns fatores a levar em conta:

  • Difícil para partes interessadas não técnicas: Equipes de negócios ou clínicas podem achar os valores de mAP abstratos, diferentemente de métricas mais intuitivas e fáceis de entender.

  • Não reflete restrições de tempo real: O mAP não leva em conta a velocidade de inferência ou latência, que são cruciais para implantação em aplicações sensíveis ao tempo.

Link to this sectionPrincipais pontos#

Vimos que a precisão média não é apenas uma pontuação técnica, mas um reflexo do potencial desempenho do modelo no mundo real. Seja em um sistema de veículo autônomo ou em um checkout de varejo, uma pontuação mAP alta serve como um indicador confiável do desempenho e da prontidão prática de um modelo.

Embora o mAP seja uma métrica essencial e impactante, ele deve ser visto como parte de uma estratégia de avaliação completa. Para aplicações críticas, como saúde e direção autônoma, não é suficiente confiar apenas no mAP.

Fatores adicionais como velocidade de inferência (quão rapidamente o modelo faz previsões), tamanho do modelo (impactando a implantação em dispositivos de borda) e análise qualitativa de erros (entender os tipos de erros que o modelo comete) também devem ser considerados para garantir que o sistema seja seguro, eficiente e verdadeiramente adequado para seu propósito pretendido.

Junte-se à nossa comunidade crescente e ao repositório GitHub para saber mais sobre visão computacional. Explore nossas páginas de soluções para aprender sobre aplicações de visão computacional na agricultura e IA na logística. Confira nossas opções de licenciamento para começar hoje mesmo com seu próprio modelo de visão computacional!

Explore solutions

Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais

Vamos construir o futuro da IA juntos!

Começa a tua jornada com o futuro da aprendizagem automática