Yolo Vision Shenzhen
Shenzhen
Junte-se agora

Melhore a robustez do modelo de IA com aumento de dados

Descubra como adicionar variações realistas aos dados de treino por meio do aumento de dados ajuda a melhorar a robustez do modelo de IA e o desempenho no mundo real.

O teste é uma parte crucial da construção de qualquer solução tecnológica. Ele mostra às equipas como um sistema realmente funciona antes de entrar em operação e permite que elas corrijam problemas antecipadamente. Isso é verdade em muitos campos, incluindo a IA, onde se espera que os modelos lidem com condições imprevisíveis do mundo real depois de serem implementados.

Por exemplo, a visão computacional é um ramo da IA que ensina as máquinas a compreender imagens e vídeos. Modelos de visão computacional, como Ultralytics , suportam tarefas como deteção de objetos, segmentação de instâncias e classificação de imagens.

Elas podem ser utilizadas em diversos setores para aplicações como monitoramento de pacientes, análise de tráfego, checkout automatizado e inspeção de qualidade na fabricação. No entanto, mesmo com modelos avançados e dados de treino de alta qualidade, as soluções de IA de visão ainda podem enfrentar dificuldades quando confrontadas com variações do mundo real, como mudanças de iluminação, movimento ou objetos parcialmente obstruídos.

Isso acontece porque os modelos aprendem com os exemplos que recebem durante o treino. Se eles nunca viram condições como brilho, desfoque de movimento ou visibilidade parcial antes, é menos provável que reconheçam objetos corretamente nessas situações.

Uma forma de melhorar a robustez do modelo é através do aumento de dados. Em vez de recolher grandes quantidades de novos dados, os engenheiros podem fazer pequenas alterações significativas nas imagens existentes, como ajustar a iluminação, recortar ou misturar imagens. Isso ajuda o modelo a aprender a reconhecer os mesmos objetos em uma gama mais ampla de situações.

Neste artigo, exploraremos como o aumento de dados melhora a robustez do modelo e a fiabilidade dos sistemas de IA de visão quando implementados fora de ambientes controlados. Vamos começar!

Como verificar a robustez de um modelo

Antes de nos aprofundarmos no aumento de dados, vamos discutir como saber se um modelo de visão computacional está realmente pronto para uso no mundo real. 

Um modelo robusto continua a ter um bom desempenho mesmo quando as condições mudam, em vez de funcionar apenas com imagens limpas e perfeitamente rotuladas. Aqui estão alguns fatores práticos a considerar ao avaliar a robustez do modelo de IA:

  • Alterações na iluminação: os modelos podem comportar-se de forma diferente quando expostos a luz forte, luz fraca, brilho ou sombras, o que pode afetar a confiança com que os objetos são detetados.
  • Oclusão parcial: Em cenas do dia a dia, os objetos são frequentemente bloqueados por outros itens ou são apenas parcialmente visíveis. Um modelo mais robusto é capaz de reconhecê-los mesmo com informações visuais em falta.
  • Cenas com muitos objetos: ambientes com muitos objetos sobrepostos podem tornar a detecção mais difícil. Modelos que apresentam bom desempenho nesses casos são normalmente mais confiáveis em configurações complexas.

Bons resultados em imagens limpas e perfeitamente capturadas nem sempre se traduzem em um forte desempenho no mundo real. Testes regulares em condições variadas ajudam a mostrar o desempenho de um modelo após a sua implementação.

O que é aumento de dados?

A forma como um objeto aparece numa fotografia pode mudar dependendo da iluminação, do ângulo, da distância ou do fundo. Quando um modelo de visão computacional é treinado, o conjunto de dados a partir do qual ele aprende precisa incluir esse tipo de variação para que ele possa ter um bom desempenho em ambientes imprevisíveis.

O aumento de dados expande um conjunto de dados de treino, criando exemplos adicionais a partir das imagens que já possui. Isso é feito aplicando alterações intencionais, como rodar ou inverter uma imagem, ajustar o brilho ou recortar parte dela. 

Por exemplo, imagine que tem apenas uma foto de um gato. Se rodar a imagem ou alterar o seu brilho, pode criar várias novas versões a partir dessa única foto. Cada versão parece ligeiramente diferente, mas continua a ser uma foto do mesmo gato. Essas variações ajudam a ensinar ao modelo que um objeto pode parecer diferente, mas continuar a ser a mesma coisa.

Fig. 1. Uma análise do aumento de uma imagem de um gato (Fonte)

Como o aumento de dados melhora o desempenho do modelo

Durante o treinamento do modelo, o aumento de dados pode ser incorporado diretamente ao pipeline de treinamento. Em vez de criar e armazenar manualmente novas cópias das imagens, é possível aplicar transformações aleatórias à medida que cada imagem é carregada. 

Isso significa que o modelo vê uma versão ligeiramente diferente da imagem a cada vez, seja ela mais clara, invertida ou parcialmente oculta. Técnicas como o apagamento aleatório podem até mesmo remover pequenas regiões da imagem para simular situações do mundo real em que um objeto está bloqueado ou apenas parcialmente visível.

Fig. 2. Exemplos de aumento baseado em apagamento aleatório (Fonte)

Ver muitas versões diferentes da mesma imagem permite que o modelo aprenda quais características são importantes, em vez de depender de um único exemplo perfeito. Essa variedade aumenta a robustez do modelo de IA, para que ele possa funcionar de forma mais confiável em condições reais.

Técnicas comuns de aumento de dados

Aqui estão algumas técnicas de aumento de dados utilizadas para introduzir variação nas imagens de treino:

  • Transformações geométricas: estas técnicas alteram a forma como um objeto aparece espacialmente dentro de uma imagem. Rodar, inverter, redimensionar, recortar ou deslocar uma imagem permite ao modelo compreender como um objeto pode ser visto de diferentes ângulos ou distâncias.
  • Ajustes de cor e iluminação: a iluminação do mundo real raramente é consistente. As imagens podem ficar muito claras, muito escuras ou com cores ligeiramente diferentes, dependendo do ambiente ou da câmara utilizada. Ajustar o brilho, o contraste, a tonalidade e a saturação permite que os modelos lidem com essas alterações visuais e tenham um bom desempenho em diferentes cenários.
  • Variações na qualidade da imagem: o desfoque ou o ruído visual podem tornar as imagens pouco nítidas. Adicionar desfoque ou ruído durante o treino ajuda o modelo a aprender a lidar com desfoque de movimento, imagens com pouca luz ou resultados de câmaras de baixa qualidade, tornando-o menos sensível a imagens imperfeitas.
  • Aumentos baseados em oclusão: Em ambientes reais, os objetos são frequentemente parcialmente bloqueados por outros objetos. Isso é conhecido como oclusões de imagem. Ocultar ou mascarar pequenas áreas de uma imagem durante o treino ajuda o modelo a aprender a detect , mesmo quando apenas parte deles está visível.
  • Aumentos de múltiplas imagens: Estas técnicas combinam partes de várias imagens num único exemplo de treino, o que pode aumentar o número de objetos em exibição e melhorar a capacidade do modelo para lidar com cenas complexas ou cheias.
Fig. 3. Um exemplo de aumento de múltiplas imagens (Fonte)

Aumento de dados facilitado com oPython Ultralytics Python

Gerir conjuntos de dados, criar variações de imagens e escrever código de transformação pode adicionar etapas extras à criação de uma aplicação de visão computacional. O Python Ultralytics Python ajuda a simplificar isso, fornecendo uma interface única para treinar, executar e implementarYOLO Ultralytics YOLO , como o YOLO26. Como parte desse esforço para otimizar os fluxos de trabalho de treinamento, o pacote inclui aumento de dados integrado e Ultralytics, otimizado para YOLO .

Ele também oferece integrações úteis que eliminam a necessidade de ferramentas separadas ou código personalizado. Especificamente, para aumento de dados, o pacote integra-se ao Albumentations, uma biblioteca de aumento de imagens amplamente utilizada. Essa integração permite que os aumentos sejam aplicados automaticamente durante o treinamento, sem a necessidade de scripts extras ou código personalizado.

Gerenciamento de anotações e conjuntos de dados aumentados

Outro fator que afeta a robustez do modelo é a qualidade da anotação. Etiquetas limpas e precisas, criadas e geridas com ferramentas de anotação como Roboflow, ajudam o modelo a entender onde os objetos estão e como são.

Durante o treino, aumentos de dados, como inversões, recortes e rotações, são aplicados dinamicamente, e as anotações são ajustadas automaticamente para corresponder a essas alterações. Quando os rótulos são precisos, esse processo funciona perfeitamente e fornece ao modelo muitos exemplos realistas da mesma cena.

Se as anotações forem imprecisas ou inconsistentes, esses erros podem acabar sendo repetidos nas imagens aumentadas, o que pode tornar o treinamento menos eficaz. Começar com anotações precisas evita que esses erros se espalhem e contribui para uma melhor robustez do modelo.

Aprimorando as aplicações de IA de visão com aumento de dados

A seguir, vamos examinar exemplos de como o aumento de dados contribui para a robustez do modelo de IA em aplicações do mundo real.

Aumentando a precisão da deteção de objetos em ambientes reais

Imagens sintéticas são frequentemente utilizadas para treinar sistemas de deteção de objetos quando os dados reais são limitados, confidenciais ou difíceis de coletar. Elas permitem que as equipas gerem rapidamente exemplos de produtos, ambientes e ângulos de câmera sem a necessidade de capturar todos os cenários da vida real. 

No entanto, os conjuntos de dados sintéticos podem, por vezes, parecer demasiado limpos em comparação com imagens do mundo real, onde a iluminação muda, os objetos se sobrepõem e as cenas incluem ruído de fundo. O aumento de dados ajuda a colmatar esta lacuna, introduzindo variações realistas, tais como diferentes tipos de iluminação, ruído ou posicionamento de objetos, para que o modelo aprenda a lidar com os tipos de condições que irá encontrar quando for implementado.

Por exemplo, num estudo recente, um YOLO11 foi treinado inteiramente com imagens sintéticas, e o aumento de dados foi adicionado para introduzir variação extra. Isso contribuiu para que o modelo aprendesse a reconhecer objetos de forma mais ampla. Ele teve um bom desempenho quando testado com imagens reais, mesmo nunca tendo visto dados do mundo real durante o treinamento.

Tornando as soluções de imagem médica mais confiáveis

Os conjuntos de dados de imagens médicas são frequentemente limitados, e os exames em si podem variar de acordo com o tipo de equipamento, as configurações de imagem ou o ambiente clínico. Diferenças na anatomia do paciente, ângulos, iluminação ou ruído visual podem dificultar que os modelos de visão computacional aprendam padrões que se generalizem bem entre pacientes e hospitais.

O aumento de dados ajuda a resolver isso, criando várias variações da mesma digitalização durante o treinamento, como adicionar ruído, deslocar ligeiramente a imagem ou aplicar pequenas distorções. Essas alterações fazem com que os dados de treinamento pareçam mais representativos das condições clínicas reais.

Por exemplo, num estudo de imagiologia pediátrica, os investigadores utilizaram YOLO11 segmentação anatómica e treinaram-no com dados médicos aumentados. Introduziram variações como ruído adicional, ligeiras alterações de posição e pequenas distorções para tornar as imagens mais realistas.

Fig. 4. Imagens médicas pediátricas originais e aumentadas (Fonte)

Ao aprender com essas variações, o modelo concentrou-se em características anatómicas significativas, em vez de diferenças superficiais. Isso tornou os resultados da segmentação mais estáveis em diferentes exames e casos de pacientes.

Principais conclusões

Recolher dados diversos é difícil, mas o aumento de dados permite que os modelos aprendam com uma gama mais ampla de condições visuais. Isso resulta em uma maior robustez do modelo ao lidar com oclusões, mudanças de iluminação e cenas com muita gente. No geral, isso ajuda os modelos a terem um desempenho mais fiável fora de ambientes de treino controlados. 

Junte-se à nossa comunidade e explore as últimas novidades em IA de visão no nosso repositório GitHub. Visite as nossas páginas de soluções para saber como aplicações como a IA no fabrico e a visão computacional nos cuidados de saúde estão a impulsionar o progresso e consulte as nossas opções de licenciamento para potenciar a sua próxima solução de IA.

Vamos construir o futuro
da IA juntos!

Comece sua jornada com o futuro do aprendizado de máquina

Comece gratuitamente