Yolo Vision Shenzhen
Shenzhen
Junte-se agora

Como melhorar mAP do modelo mAP objetos pequenos: um guia rápido

Aprenda a melhorar mAP do modelo mAP objetos pequenos com dicas práticas sobre qualidade de dados, aumento, estratégias de treinamento, avaliação e implementação.

À medida que a adoção da inteligência artificial (IA), do aprendizado de máquina e da visão computacional continua a crescer, os sistemas de detecção de objetos estão a ser usados em todos os lugares, desde câmaras de trânsito inteligentes até drones e ferramentas de análise de varejo. Muitas vezes, espera-se que esses sistemas detect de todos os tamanhos, seja um grande camião próximo à câmara ou um pequeno pedestre distante.

Normalmente, é mais fácil detectar objetos grandes e claramente visíveis. Em contrapartida, detectar objetos pequenos é mais difícil.

Quando um objeto ocupa apenas uma pequena parte da imagem, há muito pouca informação visual com que trabalhar. Um pedestre distante numa imagem de trânsito ou um pequeno veículo capturado numa vista aérea podem conter apenas alguns pixels, mas esses pixels podem conter informações críticas. 

Modelos de visão computacional, comoYOLO Ultralytics , dependem de padrões visuais para reconhecer objetos e, quando esses padrões são limitados ou pouco claros, o desempenho é prejudicado. Detalhes importantes podem ser perdidos durante o processamento, tornando as previsões mais sensíveis a erros de localização. Mesmo uma ligeira mudança na caixa delimitadora pode transformar uma detecção correta em uma detecção falha.

Essa lacuna fica clara quando analisamos o desempenho do modelo. A maioria dos modelos de deteção e segmentação lida bem com objetos médios e grandes, mas os objetos pequenos muitas vezes reduzem a precisão geral.

O desempenho do deep learning é normalmente medido usando a precisão média, ou mAP. Essa métrica reflete tanto a precisão das deteções quanto o alinhamento das caixas previstas com os objetos reais. 

Combina precisão, que mostra quantos objetos previstos estão corretos, e recuperação, que mostra quantos objetos reais são detetados com sucesso, em diferentes níveis de confiança e Intersection over Union, ou IoU uma métrica que mede o quanto a caixa delimitadora prevista se sobrepõe à caixa de verdade fundamental) limiares.

Anteriormente, explorámos a deteção de pequenos objetos e por que é um problema tão difícil para os modelos de visão computacional. Neste artigo, vamos partir dessa base e focar em como melhorar mAP pequenos objetos estão envolvidos. Vamos começar!

Por que os objetos pequenos são mais difíceis de detect?

Quando se trata de aplicações que envolvem detetores de objetos, um objeto pequeno é definido pelo espaço que ocupa numa imagem, não necessariamente pelo tamanho que parece ao olho humano. Se ocupar apenas uma pequena parte da imagem, ele contém muito pouca informação visual, o que torna mais difícil para um algoritmo de visão computacional detect .

Fig. 1. Imagens de exemplo mostrando pequenos objetos ocupando áreas limitadas de pixels (Fonte)

Com menos pixels para trabalhar, detalhes importantes, como bordas, formas e texturas, podem ficar pouco nítidos ou facilmente perdidos. À medida que a imagem é processada pelo modelo, ela é redimensionada e simplificada para destacar padrões úteis. 

Embora isso ajude o modelo a compreender a cena como um todo, também pode reduzir ainda mais os detalhes finos. Para objetos pequenos, esses detalhes são frequentemente essenciais para uma deteção correta.

Esses desafios tornam-se ainda mais evidentes quando se analisam as métricas de avaliação. Objetos pequenos são especialmente sensíveis a erros de localização. Mesmo uma caixa delimitadora ligeiramente desalinhada pode ficar abaixo do limite exigido de Intersection over Union, ou IoU. 

Quando isso acontece, uma previsão que parece razoável pode ser considerada incorreta. Isso diminui tanto a precisão quanto a recuperação, o que acaba reduzindo a precisão média, ou mAP.

Como esses fatores estão intimamente ligados, melhorar o desempenho muitas vezes requer pensar em todo o sistema. Isso significa equilibrar cuidadosamente a resolução da imagem, a extração de características, o design do modelo e as configurações de avaliação para que pequenos detalhes visuais sejam melhor preservados e interpretados.

A importância da qualidade dos conjuntos de dados e das anotações

Quando se trata da deteção de pequenos objetos, a qualidade de um conjunto de dados costuma fazer a maior diferença no desempenho. Objetos pequenos ocupam apenas uma parte minúscula de uma imagem, o que significa que há muito pouca informação visual disponível para o modelo aprender. Por causa disso, os dados de treino tornam-se especialmente importantes. Se o conjunto de dados não incluir exemplos claros e representativos suficientes, o modelo de deteção de objetos terá dificuldade em reconhecer padrões consistentes.

Os conjuntos de dados que funcionam bem para a deteção de pequenos objetos geralmente contêm imagens de alta resolução, aparições frequentes de pequenos alvos e condições visuais consistentes. Embora conjuntos de dados genéricos, como o COCO , sejam pontos de partida úteis, muitas vezes eles não correspondem à escala, densidade ou contexto de casos de uso específicos do mundo real. Nesses casos, torna-se necessário coletar dados de treino específicos do domínio para melhorar o desempenho do modelo.

A qualidade das anotações também desempenha um papel fundamental. As anotações estabelecem a verdade fundamental, especificando os rótulos corretos dos objetos e as localizações das caixas delimitadoras que o modelo aprende a prever.

Para objetos pequenos, as caixas delimitadoras devem ser desenhadas com cuidado e consistência. Mesmo pequenas diferenças na colocação das caixas podem afetar significativamente a precisão da localização, pois objetos pequenos são altamente sensíveis a mudanças no nível de pixels.

Anotações inadequadas ou inconsistentes podem reduzir significativamente mAP. Se os objetos forem rotulados incorretamente, o modelo aprende padrões incorretos, o que pode aumentar os falsos positivos. 

Se os objetos aparecerem na imagem, mas estiverem ausentes na verdadeira realidade, as deteções corretas podem ser consideradas falsos positivos durante a avaliação. Ambas as situações reduzem o desempenho geral.

Curiosamente, pesquisas recentes indicam que a precisão média para objetos pequenos geralmente permanece entre 20% e 40% em benchmarks padrão, o que é significativamente menor do que para objetos maiores. Essa diferença destaca a importância do design do conjunto de dados e da consistência das anotações na precisão geral da deteção.

O aumento de dados pode desempenhar um papel fundamental na melhoria da precisão

Com uma melhor compreensão da importância da qualidade do conjunto de dados e da consistência das anotações, vamos ver como um modelo de deteção de objetos pode aprender de forma mais eficaz a partir dos dados existentes. Mesmo quando é difícil ou dispendioso recolher imagens adicionais, ainda há maneiras de melhorar o desempenho, fazendo melhor uso dos dados já disponíveis.

Uma das abordagens mais práticas é o aumento de dados. Ele tem um papel especialmente importante na deteção de objetos pequenos, pois esses objetos fornecem menos pistas visuais para o modelo aprender. Ao introduzir variações controladas durante o treino, o aumento ajuda o modelo a generalizar melhor sem a necessidade de nova recolha de dados.

O aumento eficaz de dados concentra-se em manter os objetos pequenos claramente visíveis. Técnicas como redimensionamento controlado, recorte leve e mosaico de imagens podem fazer com que os objetos pequenos se destaquem mais, preservando a sua forma e aparência. O objetivo é ajudar o modelo a ver objetos pequenos com mais frequência e em condições ligeiramente diferentes, sem alterar a sua aparência em situações reais. 

No entanto, o aumento precisa ser aplicado com cuidado. Algumas transformações podem reduzir a visibilidade de objetos pequenos ou alterar a sua aparência de maneiras que provavelmente não ocorreriam em dados reais. Quando isso acontece, o modelo pode ter dificuldade para aprender os limites precisos dos objetos.

Aumento de dados mais inteligente com IA generativa

Outro tipo interessante de aumento de dados que está a tornar-se mais popular é o uso de IA generativa para criar dados de treino sintéticos. Em vez de depender de imagens recolhidas e rotuladas manualmente, as equipas agora podem gerar cenas realistas que simulam ambientes específicos, tamanhos de objetos, condições de iluminação e variações de fundo.

Fig. 2. Uma visão geral das imagens aéreas sintéticas utilizadas para aumento de dados (Fonte)

Essa abordagem é particularmente útil para a deteção de objetos pequenos, onde exemplos do mundo real podem ser difíceis de capturar de forma consistente. Ao controlar como os objetos pequenos aparecem em imagens sintéticas, como ajustar a escala, densidade e posicionamento, é possível expor os modelos a uma gama mais ampla de cenários de treino. 

Quando combinado cuidadosamente com dados reais, o aumento sintético pode melhorar a robustez do modelo, reduzir os custos de recolha de dados e apoiar melhorias de desempenho mais direcionadas.

Opções de treino de modelos que podem afetar mAP de objetos pequenos

Além da qualidade do conjunto de dados e da consistência das anotações, as escolhas de treino do modelo também têm um forte impacto no desempenho da deteção de pequenos objetos.

Aqui estão algumas das principais estratégias de formação a considerar:

  • Comece com modelos pré-treinados: um modelo pré-treinado, como Ultralytics , já aprendeu padrões visuais gerais a partir de grandes conjuntos de dados de imagens. Isso fornece um ponto de partida sólido, em vez de treinar do zero, o que é especialmente útil ao detectar pequenos objetos com dados limitados.
  • Use a aprendizagem por transferência de forma estratégica: a aprendizagem por transferência significa adaptar um modelo pré-treinado ao seu conjunto de dados específico. Isso ajuda o modelo a focar nos seus pequenos objetos, reduzindo o sobreajuste (memorizar os dados de treino em vez de aprender padrões gerais).
  • Corrigir o desequilíbrio de classes: se objetos pequenos aparecerem com menos frequência do que objetos maiores, o modelo poderá priorizar o aprendizado de objetos maiores. Técnicas como ponderação de classes ou estratégias de amostragem ajudam a garantir que objetos pequenos não sejam ignorados.
  • Ajuste IoU de confiança e IoU : objetos pequenos são sensíveis a pequenos erros de localização. O ajuste fino desses limites ajuda a avaliar e interpretar melhor o desempenho de objetos pequenos durante a validação e a inferência.

Considerações sobre a arquitetura do modelo para deteção de pequenos objetos

Embora seja possível usar um modelo geral de deteção de objetos para tarefas com objetos pequenos, também existem arquiteturas de modelos projetadas especificamente para melhorar a deteção de objetos pequenos. Por exemplo, existem variantes do modelo P2 do Ultralytics YOLOv8 que são otimizadas para preservar detalhes espaciais finos.

YOLOv8 imagens em várias escalas, reduzindo-as gradualmente à medida que avançam na rede. Isso ajuda o modelo a compreender a cena como um todo, mas também reduz os detalhes finos.

Quando um objeto já é muito pequeno, informações visuais importantes podem desaparecer durante esse processo. A variante P2 do Ultralytics YOLOv8 isso usando um stride de 2 na sua pirâmide de características. 

Uma pirâmide de características é a parte do modelo que analisa a imagem em várias resoluções internas para que possa detect de diferentes tamanhos. Com um intervalo de 2, a imagem é reduzida de forma mais gradual nesta fase, permitindo que mais detalhes do nível de pixel original sejam preservados. 

Como mais detalhes espaciais são preservados, os objetos pequenos mantêm uma estrutura mais visível dentro da rede. Isso facilita a localização e detect de detect que ocupam apenas alguns pixels, o que pode ajudar a melhorar mAP de objetos pequenos.

Avaliação sensível ao tamanho para deteção de objetos pequenos

Embora a precisão média resuma o desempenho geral do modelo, ela nem sempre mostra como um modelo lida com objetos de tamanhos diferentes. Para objetos pequenos, o desempenho é frequentemente limitado pela precisão da localização, e não apenas pela classificação, o que significa que pequenas alterações na caixa delimitadora podem afetar significativamente os resultados.

Em outras palavras, o modelo pode identificar corretamente a classe do objeto, mas se a caixa delimitadora prevista estiver ligeiramente desalinhada, a deteção ainda pode ser considerada incorreta. Como os objetos pequenos cobrem apenas um pequeno número de pixels, mesmo uma pequena mudança na posição da caixa pode reduzir significativamente a sobreposição entre a caixa prevista e a verdade fundamental. Como resultado, as pontuações de avaliação podem cair mesmo quando o objeto foi identificado corretamente.

Fig. 3. Avaliar a deteção de pequenos objetos pode ser complicado (Fonte)

Uma abordagem mais informativa é avaliar o desempenho por tamanho do objeto. Os benchmarks mais amplamente utilizados relatam a precisão média separadamente para objetos pequenos, médios e grandes. 

Esta análise específica por tamanho fornece uma visão mais clara de onde o modelo tem um bom desempenho e onde tem dificuldades. Na prática, AP de objetos pequenos frequentemente fica atrás mAP geral, destacando desafios de localização que podem não ser óbvios em métricas agregadas.

Considere as restrições de implementação e as compensações do mundo real

O desempenho do modelo frequentemente muda quando se passa de ambientes de teste controlados para a implementação no mundo real. Fatores como resolução de imagem, velocidade de processamento e hardware disponível introduzem compromissos que afetam diretamente a deteção de pequenos objetos.

Por exemplo, aumentar a resolução de entrada pode melhorar mAP de objetos pequenos mAP alvos pequenos ocupam mais pixels e retêm mais detalhes. No entanto, uma resolução mais alta também aumenta o uso de memória e o tempo de processamento. Isso pode retardar a inferência e aumentar os custos operacionais.

Fig. 4. Desafios da implementação da deteção de pequenos objetos. Imagem do autor.

As escolhas de hardware desempenham um papel fundamental na gestão dessas compensações. GPUs mais potentes permitem modelos maiores e processamento mais rápido, mas os ambientes de implementação, especialmente dispositivos de ponta, geralmente têm recursos de computação e memória limitados. 

As aplicações em tempo real acrescentam outra restrição: manter uma baixa latência pode exigir a redução do tamanho do modelo ou da resolução de entrada, o que pode afetar negativamente a recuperação de objetos pequenos. Em última análise, as decisões de implementação exigem equilibrar o desempenho da deteção com as limitações de hardware, os requisitos de velocidade e o custo total. 

Juntando tudo: melhorando mAP do modelo mAP objetos pequenos

Melhorar a deteção de pequenos objetos requer uma abordagem prática e estruturada, especialmente quando se trabalha em ambientes reais. Aqui está uma visão geral das principais etapas a serem lembradas:

  • Audite a qualidade do seu conjunto de dados: certifique-se de que o seu conjunto de dados inclui exemplos suficientes de objetos pequenos, usa imagens de alta resolução sempre que possível e reflete as condições em que o modelo será implementado.
  • Verifique a consistência das anotações: certifique-se de que as caixas delimitadoras estejam precisas, completas e rotuladas de forma consistente. Anotações inconsistentes podem limitar diretamente o desempenho da localização.
  • Ajuste as configurações de treino deliberadamente: ajuste o tamanho do lote, o número de épocas e as configurações de otimização cuidadosamente para que objetos pequenos sejam representados adequadamente durante o treino.
  • Repita passo a passo: faça ajustes controlados, avalie o seu impacto e refine a sua abordagem. A iteração constante e baseada em dados leva a uma melhoria consistente ao longo do tempo.

Principais conclusões

Melhorar mAP objetos pequenos requer uma abordagem estruturada e orientada por dados, em vez de ajustes aleatórios. Melhorias reais vêm da combinação de bons dados, anotações consistentes, treinamento cuidadoso e métodos de avaliação adequados. Em projetos do mundo real, testes constantes e pequenas mudanças mensuráveis são o que levam a uma detecção de objetos pequenos melhor e mais confiável ao longo do tempo.

Junte-se à nossa comunidade em crescimento e explore o nosso repositório GitHub para obter recursos práticos de IA. Para construir com IA de visão hoje, explore as nossas opções de licenciamento. Saiba como a IA na agricultura está a transformar a agricultura e como a IA de visão na robótica está a moldar o futuro, visitando as nossas páginas de soluções.

Vamos construir o futuro
da IA juntos!

Comece sua jornada com o futuro do aprendizado de máquina

Comece gratuitamente