Guias

O guia definitivo para aumentação de dados em 2025

Descubra como a aumentação de dados de imagem ajuda os modelos de visão AI a aprender melhor, melhorar a precisão e ter um desempenho mais eficaz em situações do mundo real.

ABAbirami Vina

6 min readFebruary 14, 2025

Aumentação de dados de imagem criando variações diversas para treinamento de visão AI

Devido ao boom da IA, fenômenos como robôs trabalhando em fábricas e carros autônomos navegando pelas ruas estão ocupando as manchetes com mais frequência. A IA está mudando a forma como as máquinas interagem com o mundo, desde melhorar imagens médicas até auxiliar no controle de qualidade em linhas de produção.

Grande parte desse progresso vem da visão computacional, um ramo da IA que possibilita que as máquinas compreendam e interpretem imagens. Assim como os humanos aprendem a reconhecer objetos e padrões ao longo do tempo, modelos de visão computacional como o Ultralytics YOLO11 precisam ser treinados com grandes quantidades de dados de imagem para desenvolver seu entendimento visual.

No entanto, coletar uma quantidade tão vasta de dados visuais nem sempre é fácil. Mesmo que a comunidade de visão computacional tenha criado muitos datasets grandes, eles ainda podem perder certas variações — como imagens com objetos sob baixa luminosidade, itens parcialmente ocultos ou vistos de ângulos diferentes. Essas diferenças podem confundir os modelos de visão computacional que foram treinados apenas em condições específicas.

A aumentação de dados de imagem é uma técnica que resolve esse problema introduzindo novas variações nos dados existentes. Ao fazer alterações nas imagens, como ajustar cores, rotacionar ou deslocar a perspectiva, o dataset torna-se mais diversificado, ajudando os modelos de visão computacional a reconhecerem melhor os objetos em situações do mundo real.

Neste artigo, exploraremos como funciona a aumentação de dados de imagem e o impacto que ela pode ter nas aplicações de visão computacional.

Link to this sectionO que é aumentação de dados de imagem?#

Digamos que você esteja tentando reconhecer um amigo em uma multidão, mas ele esteja usando óculos escuros ou parado em um local com sombra. Mesmo com essas pequenas mudanças na aparência, você ainda sabe quem ele é. Por outro lado, um modelo de visão computacional pode ter dificuldade com tais variações, a menos que tenha sido treinado para reconhecer objetos em diferentes configurações.

A aumentação de dados de imagem melhora o desempenho do modelo de visão computacional adicionando versões modificadas de imagens existentes aos dados de treinamento, em vez de coletar milhares de novas imagens.

Mudanças nas imagens como inverter, rotacionar, ajustar o brilho ou adicionar pequenas distorções expõem os modelos de visão computacional a uma gama mais ampla de condições. Em vez de depender de datasets massivos, os modelos podem aprender de forma eficiente a partir de datasets de treinamento menores com imagens aumentadas.

Exemplos de imagens aumentadas de um carro

Fig 1. Exemplos de imagens aumentadas de um carro.

Link to this sectionA importância da aumentação de dados na visão computacional#

Aqui estão algumas das principais razões pelas quais a aumentação é essencial para a visão computacional:

Reduz os requisitos de dados: Coletar grandes datasets de imagens requer tempo e recursos. A aumentação pode ser usada para treinar modelos de forma eficaz sem precisar de datasets massivos.
Previne o overfitting: Um modelo treinado com poucos exemplos pode memorizar detalhes em vez de reconhecer padrões gerais. Adicionar variedade através da aumentação garante que os modelos de visão computacional aprendam de uma forma que se aplique a dados novos e inéditos.
Imita imagens imperfeitas: As imagens em datasets costumam ser perfeitas demais, mas fotos do mundo real podem ser desfocadas, obstruídas ou distorcidas. Aumentar imagens com ruído, oclusões ou outras variações torna-as mais realistas.
Aprimora a robustez do modelo: O treinamento com uma variedade de imagens ajuda a IA a lidar com mudanças do mundo real, tornando-a mais confiável em diferentes ambientes, condições de iluminação e situações.

Link to this sectionQuando você deve usar a aumentação de dados de imagem?#

A aumentação de dados de imagem é particularmente útil quando um modelo de visão computacional precisa reconhecer objetos em situações diferentes, mas não possui imagens variadas o suficiente.

Por exemplo, se pesquisadores estiverem treinando um modelo de visão computacional para identificar espécies subaquáticas raras que raramente são fotografadas, o dataset pode ser pequeno ou carecer de variação. Ao aumentar as imagens - ajustando cores para simular diferentes profundidades de água, adicionando ruído para imitar condições turvas ou alterando levemente as formas para levar em conta o movimento natural - o modelo pode aprender a detectar objetos subaquáticos com mais precisão.

Aqui estão algumas outras situações onde a aumentação faz uma grande diferença:

Equilibrando o dataset: Alguns objetos podem aparecer com menos frequência nos dados de treinamento, tornando os modelos de visão computacional enviesados. A aumentação ajuda a criar mais exemplos de objetos raros para que o modelo possa reconhecer todas as categorias de forma justa.
Adaptando-se a diferentes câmeras: As imagens podem parecer diferentes dependendo do dispositivo. A aumentação ajuda os modelos de visão computacional a terem um bom desempenho em fotos com diferentes resoluções, iluminações e qualidades.
Corrigindo pequenos erros de rotulagem: Pequenos deslocamentos, cortes ou rotações ajudam os modelos de visão computacional a reconhecer objetos corretamente, mesmo se os rótulos originais não estiverem perfeitamente alinhados.

Link to this sectionComo funciona a aumentação de dados de imagem#

Nos primórdios da visão computacional, a aumentação de dados de imagem envolvia principalmente técnicas básicas de processamento de imagem, como inverter, rotacionar e cortar, para aumentar a diversidade do dataset. À medida que a IA melhorava, métodos mais avançados foram introduzidos, como ajustar cores (transformações de espaço de cor), tornar imagens mais nítidas ou desfocadas (filtros de kernel) e mesclar várias imagens (mixagem de imagem) para aprimorar o aprendizado.

A aumentação pode ocorrer antes e durante o treinamento do modelo. Antes do treinamento, imagens modificadas podem ser adicionadas ao dataset para fornecer mais variedade. Durante o treinamento, as imagens podem ser alteradas aleatoriamente em tempo real, ajudando os modelos de visão computacional a se adaptarem a diferentes condições.

Essas mudanças são feitas usando transformações matemáticas. Por exemplo, a rotação inclina uma imagem, o corte remove partes para imitar diferentes visões e as mudanças de brilho simulam variações de iluminação. O desfoque suaviza as imagens, o ajuste de nitidez torna os detalhes mais claros e a mixagem de imagem combina partes de diferentes imagens. Frameworks de visão computacional e ferramentas como OpenCV, TensorFlow e PyTorch podem automatizar esses processos, tornando a aumentação rápida e eficaz.

Link to this sectionPrincipais técnicas de aumentação de dados de imagem#

Agora que discutimos o que é a aumentação de dados de imagem, vamos examinar mais de perto algumas técnicas fundamentais de aumentação de dados de imagem usadas para aprimorar os dados de treinamento.

Link to this sectionAjustando orientação e posição#

Modelos de visão computacional como o YOLO11 muitas vezes precisam reconhecer objetos de vários ângulos e pontos de vista. Para ajudar nisso, as imagens podem ser invertidas horizontal ou verticalmente, para que o modelo de IA aprenda a reconhecer objetos de diferentes pontos de vista.

Da mesma forma, rotacionar imagens altera levemente seu ângulo, permitindo que o modelo identifique objetos de múltiplas perspectivas. Além disso, deslocar imagens em diferentes direções (translação) ajuda os modelos a se ajustarem a pequenas mudanças posicionais. Essas transformações garantem que os modelos generalizem melhor para condições do mundo real, onde a colocação de um objeto em uma imagem é imprevisível.

Diferentes métodos de aumento relacionados a orientação e posição

Fig 2. Diferentes métodos de aumentação relacionados à orientação e posição.

Link to this sectionRedimensionamento e corte#

Com relação às soluções de visão computacional do mundo real, os objetos nas imagens podem aparecer a distâncias e tamanhos variados. Os modelos de visão computacional precisam ser robustos o suficiente para detectá-los independentemente dessas diferenças.

Para melhorar a adaptabilidade, os seguintes métodos de aumentação podem ser usados:

Escalonamento: O redimensionamento altera o tamanho da imagem mantendo suas proporções, permitindo que os modelos de IA detectem objetos a diferentes distâncias.
Corte: Isso remove partes desnecessárias de uma imagem, ajudando o modelo a focar em áreas-chave e reduzindo distrações de fundo.
Cisalhamento: Inclinar levemente uma imagem simula uma aparência distorcida ou esticada, ajudando a IA a reconhecer objetos de diferentes ângulos.

Esses ajustes ajudam os modelos de visão computacional a reconhecer objetos mesmo que seu tamanho ou forma mudem levemente.

Link to this sectionAjustes de perspectiva e distorção#

Os objetos nas imagens podem parecer diferentes dependendo do ângulo da câmera, tornando o reconhecimento difícil para os modelos de visão computacional. Para ajudar os modelos a lidar com essas variações, as técnicas de aumentação podem ajustar como os objetos são apresentados nas imagens.

Por exemplo, transformações de perspectiva podem mudar o ângulo de visão, fazendo um objeto parecer como se estivesse sendo visto de uma posição diferente. Isso permite que os modelos de visão computacional reconheçam objetos mesmo quando estão inclinados ou capturados de um ponto de vista incomum.

Outro exemplo é uma transformação elástica que estica, dobra ou distorce imagens para simular distorções naturais, de modo que os objetos apareçam como seriam em reflexos ou sob pressão.

Link to this sectionModificações de cor e iluminação#

As condições de iluminação e as diferenças de cor podem afetar significativamente a forma como os modelos de visão computacional interpretam as imagens. Como os objetos podem parecer diferentes sob várias configurações de iluminação, as seguintes técnicas de aumentação podem ajudar a lidar com essas situações:

Ajustes de brilho e contraste: Simular diferentes condições de iluminação ajuda os modelos de visão computacional a reconhecer objetos tanto em ambientes claros quanto escuros.
Jittering de cor: Alterar aleatoriamente a tonalidade, a saturação e o equilíbrio de cores torna os modelos de visão computacional mais adaptáveis a diferentes câmeras e condições de iluminação.
Conversão para escala de cinza: Converter imagens para preto e branco incentiva os modelos de visão computacional a focar em formas e texturas em vez de cor.

Exemplos de aumentos relacionados a variações de cor

Fig 3. Exemplos de aumentações relacionadas a variações de cor.

Link to this sectionTécnicas avançadas de aumentação de dados de imagem#

Até agora, exploramos apenas técnicas de aumentação que modificam uma única imagem. No entanto, alguns métodos avançados envolvem combinar várias imagens para melhorar o aprendizado da IA.

Por exemplo, o MixUp mescla duas imagens, ajudando os modelos de visão computacional a entender relacionamentos entre objetos e melhorando sua capacidade de generalizar em diferentes cenários. O CutMix vai um passo além, substituindo uma seção de uma imagem por parte de outra, permitindo que os modelos aprendam com múltiplos contextos dentro da mesma imagem. Enquanto isso, o CutOut funciona de forma diferente, removendo partes aleatórias de uma imagem, treinando os modelos de visão computacional para reconhecer objetos mesmo quando estão parcialmente ocultos ou obstruídos.

Técnicas avançadas de aumento de dados de imagem como MixUp, CutMix e CutOut

Fig 4. Técnicas avançadas de aumentação de dados de imagem.

Link to this sectionO papel da IA generativa na aumentação de dados de imagem#

A IA generativa está ganhando força em muitos setores e aplicações cotidianas. Você provavelmente já a encontrou em relação a imagens geradas por IA, vídeos deepfake ou aplicativos que criam avatares realistas. Mas, além da criatividade e do entretenimento, a IA generativa desempenha um papel crucial no treinamento de modelos de visão computacional, gerando novas imagens a partir das existentes.

Em vez de apenas inverter ou rotacionar fotos, ela pode criar variações realistas - mudando expressões faciais, estilos de vestuário ou até mesmo simulando diferentes condições climáticas. Essas variações ajudam os modelos de visão computacional a se tornarem mais adaptáveis e precisos em diversos cenários do mundo real. Modelos avançados de IA generativa, como GANs (Redes Adversárias Generativas) e modelos de difusão, também podem preencher detalhes ausentes ou criar imagens sintéticas de alta qualidade.

Link to this sectionLimitações da aumentação de dados de imagem#

Embora a aumentação de dados melhore os datasets de treinamento, existem também algumas limitações a serem consideradas. Aqui estão alguns desafios importantes relacionados à aumentação de dados de imagem:

Diversidade de dados limitada: As imagens aumentadas vêm de dados existentes e não podem introduzir padrões completamente novos ou perspectivas raras.
Potencial distorção de dados: Transformações excessivas podem tornar as imagens irreais, reduzindo potencialmente a precisão do modelo em cenários do mundo real.
Aumento da computação: A aumentação em tempo real que ocorre durante o treinamento do modelo pode exigir bastante poder de processamento, tornando o treinamento mais lento e aumentando o uso de memória.
O desequilíbrio de classes permanece: A aumentação não cria amostras inteiramente novas, portanto, categorias sub-representadas ainda podem levar a um aprendizado enviesado.

Link to this sectionUma aplicação no mundo real da aumentação de dados de imagem#

Uma aplicação interessante da aumentação de dados de imagem é em carros autônomos, onde decisões de fração de segundo tomadas por modelos de visão computacional como o YOLO11 são cruciais. O modelo tem que ser capaz de detectar estradas, pessoas e outros objetos com precisão.

No entanto, as condições do mundo real que um veículo autônomo encontra podem ser imprevisíveis. Mau tempo, desfoque de movimento e sinais ocultos podem tornar as soluções de visão computacional neste setor complexas. Treinar modelos de visão computacional apenas com imagens do mundo real geralmente não é suficiente. Os datasets de imagem para os modelos em carros autônomos precisam ser diversos para que o modelo possa aprender a lidar com situações inesperadas.

A aumentação de dados de imagem resolve isso simulando neblina, ajustando o brilho e distorcendo formas. Essas mudanças ajudam os modelos a reconhecer objetos em diferentes condições. Como resultado, os modelos tornam-se mais inteligentes e confiáveis.

Com o treinamento aumentado, soluções de visão computacional em carros autônomos adaptam-se melhor e tomam decisões mais seguras. Resultados mais precisos significam menos acidentes e melhor navegação.

Aumento de dados de imagem aplicado a imagens de carros autônomos

Fig 5. Um exemplo de aumentação de dados de imagem com relação a carros autônomos.

Carros autônomos são apenas um exemplo. Na verdade, a aumentação de dados de imagem é crucial em uma ampla gama de setores, desde imagens médicas até análise de varejo. Qualquer aplicação que dependa de visão computacional pode potencialmente se beneficiar da aumentação de dados de imagem.

Link to this sectionPrincipais pontos#

Sistemas de visão computacional precisam ser capazes de reconhecer objetos em diferentes condições, mas coletar infinitas imagens do mundo real para treinamento pode ser difícil. A aumentação de dados de imagem resolve isso criando variações de imagens existentes, ajudando os modelos a aprender mais rápido e ter um desempenho melhor em situações do mundo real. Ela melhora a precisão, garantindo que modelos de visão computacional como o YOLO11 possam lidar com diferentes iluminações, ângulos e ambientes.

Para empresas e desenvolvedores, a aumentação de dados de imagem economiza tempo e esforço, tornando os modelos de visão computacional mais confiáveis. Da saúde aos carros autônomos, muitos setores dependem dela. À medida que a visão computacional continua evoluindo, a aumentação continuará sendo uma parte essencial da construção de modelos mais inteligentes e adaptáveis para o futuro.

Junte-se à nossa comunidade e visite nosso repositório GitHub para ver a IA em ação. Explore nossas opções de licenciamento e descubra mais sobre IA na agricultura e visão computacional na manufatura em nossas páginas de soluções.