Sintonize na YOLO Vision 2025!
25 de setembro de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024

O guia definitivo para aumento de dados em 2025

Abirami Vina

Leitura de 6 min

14 de fevereiro de 2025

Descubra como o aumento de dados de imagem ajuda os modelos de Visão de IA a aprender melhor, aumentar a precisão e ter um desempenho mais eficaz em situações do mundo real.

Devido ao boom da IA, fenômenos como robôs trabalhando em fábricas e carros autônomos circulando pelas ruas estão ganhando as manchetes com mais frequência. A IA está mudando a forma como as máquinas interagem com o mundo, desde a melhoria da imagem médica até o auxílio no controle de qualidade nas linhas de produção.

Uma grande parte deste progresso vem da visão computacional, um ramo da IA que possibilita que as máquinas compreendam e interpretem imagens. Tal como os humanos aprendem a reconhecer objetos e padrões ao longo do tempo, os modelos de Visão de IA como o Ultralytics YOLO11 precisam de ser treinados em grandes quantidades de dados de imagem para desenvolver a sua compreensão visual.

No entanto, coletar uma quantidade tão vasta de dados visuais nem sempre é fácil. Mesmo que a comunidade de visão computacional tenha criado muitos grandes conjuntos de dados, eles ainda podem perder certas variações - como imagens com objetos em baixa luz, itens parcialmente ocultos ou coisas vistas de diferentes ângulos. Essas diferenças podem ser confusas para modelos de visão computacional que foram treinados apenas em condições específicas.

A data augmentation de imagem é uma técnica que resolve este problema introduzindo novas variações nos dados existentes. Ao fazer alterações nas imagens, como ajustar cores, rodar ou mudar a perspetiva, o conjunto de dados torna-se mais diversificado, ajudando os modelos de Visão de IA a reconhecer melhor os objetos em situações do mundo real.

Neste artigo, exploraremos como funciona o aumento de dados de imagem e o impacto que pode ter nas aplicações de visão computacional.

O que é aumento de dados de imagem?

Digamos que você esteja tentando reconhecer um amigo em uma multidão, mas ele está usando óculos de sol ou em um local sombreado. Mesmo com essas pequenas mudanças na aparência, você ainda sabe quem ele é. Por outro lado, um modelo de Visão de IA pode ter dificuldades com tais variações, a menos que tenha sido treinado para reconhecer objetos em diferentes configurações.

A data augmentation de imagem melhora o desempenho do modelo de visão computacional adicionando versões modificadas de imagens existentes aos dados de treino, em vez de recolher milhares de novas imagens. 

Alterações em imagens, como inversão, rotação, ajuste de brilho ou adição de pequenas distorções, expõem os modelos de Visão de IA a uma gama mais ampla de condições. Em vez de depender de conjuntos de dados massivos, os modelos podem aprender de forma eficiente a partir de conjuntos de dados de treinamento menores com imagens aumentadas. 

__wf_reserved_inherit
Fig. 1. Exemplos de imagens aumentadas de um carro.

A importância do aumento de dados na visão computacional

Aqui estão algumas das principais razões pelas quais o aumento de dados é essencial para a visão computacional:

  • Reduz os requisitos de dados: A recolha de grandes conjuntos de dados de imagens requer tempo e recursos. O aumento pode ser usado para treinar modelos de forma eficaz sem precisar de conjuntos de dados massivos.
  • Impede o overfitting: Um modelo treinado em poucos exemplos pode memorizar detalhes em vez de reconhecer padrões gerais. Adicionar variedade por meio do aumento garante que os modelos de Visão de IA aprendam de uma forma que se aplique a dados novos e não vistos.
  • Imita imagens imperfeitas: As imagens em conjuntos de dados são frequentemente perfeitas demais, mas as fotos do mundo real podem ser borradas, obscurecidas ou distorcidas. Aumentar as imagens com ruído, oclusões ou outras variações as torna mais realistas.
  • Aumenta a robustez do modelo: O treino com uma variedade de imagens ajuda a IA a lidar com as mudanças do mundo real, tornando-a mais confiável em diferentes ambientes, condições de iluminação e situações.

Quando você deve usar o aumento de dados de imagem?

A data augmentation de imagem é particularmente útil quando um modelo de visão computacional precisa de reconhecer objetos em diferentes situações, mas não tem imagens suficientemente variadas. 

Por exemplo, se pesquisadores estiverem treinando um modelo de Visão de IA para identificar espécies subaquáticas raras que raramente são fotografadas, o conjunto de dados pode ser pequeno ou carecer de variação. Ao aumentar as imagens - ajustando as cores para simular diferentes profundidades da água, adicionando ruído para imitar condições turvas ou alterando ligeiramente as formas para levar em conta o movimento natural - o modelo pode aprender a detectar objetos subaquáticos com mais precisão.

Aqui estão algumas outras situações em que o aumento de dados faz uma grande diferença:

  • Balanceamento do conjunto de dados: Alguns objetos podem aparecer com menos frequência nos dados de treinamento, tornando os modelos de Visão de IA tendenciosos. O aumento de dados ajuda a criar mais exemplos de objetos raros para que o modelo possa reconhecer todas as categorias de forma justa.
  • Adaptando-se a diferentes câmeras: As imagens podem parecer diferentes dependendo do dispositivo. O aumento ajuda os modelos de Visão de IA a terem um bom desempenho em fotos com diferentes resoluções, iluminação e qualidade.
  • Correção de pequenos erros de rotulagem: Pequenos deslocamentos, cortes ou rotações ajudam os modelos de visão computacional a reconhecer objetos corretamente, mesmo que os rótulos originais não estejam perfeitamente alinhados.

Como funciona o aumento de dados de imagem

Nos primeiros dias da visão computacional, o aumento de dados de imagem envolvia principalmente técnicas básicas de processamento de imagem, como inversão, rotação e recorte para aumentar a diversidade do conjunto de dados. À medida que a IA melhorou, métodos mais avançados foram introduzidos, como ajustar cores (transformações de espaço de cor), nitidez ou desfoque de imagens (filtros de kernel) e combinar várias imagens (mistura de imagens) para aprimorar o aprendizado.

O aumento pode acontecer antes e durante o treino do modelo. Antes do treino, imagens modificadas podem ser adicionadas ao conjunto de dados para fornecer mais variedade. Durante o treino, as imagens podem ser alteradas aleatoriamente em tempo real, ajudando os modelos de Visão de IA a adaptarem-se a diferentes condições.

Essas mudanças são feitas usando transformações matemáticas. Por exemplo, a rotação inclina uma imagem, o recorte remove partes para imitar diferentes visualizações e as mudanças de brilho simulam variações de iluminação. O desfoque suaviza as imagens, a nitidez torna os detalhes mais claros e a mistura de imagens combina partes de diferentes imagens. Frameworks de Visão de IA e ferramentas como OpenCV, TensorFlow e PyTorch podem automatizar esses processos, tornando o aumento rápido e eficaz.

Principais técnicas de aumento de dados de imagem

Agora que discutimos o que é aumento de dados de imagem, vamos dar uma olhada mais de perto em algumas técnicas fundamentais de aumento de dados de imagem usadas para aprimorar os dados de treinamento.

Ajustando a orientação e a posição

Os modelos de visão computacional, como o YOLO11, frequentemente precisam reconhecer objetos de vários ângulos e pontos de vista. Para ajudar com isso, as imagens podem ser invertidas horizontal ou verticalmente para que o modelo de IA aprenda a reconhecer objetos de diferentes pontos de vista. 

Da mesma forma, girar as imagens ligeiramente muda seu ângulo, permitindo que o modelo identifique objetos de várias perspectivas. Além disso, deslocar as imagens em diferentes direções (translação) ajuda os modelos a se ajustarem a pequenas mudanças posicionais. Essas transformações garantem que os modelos generalizem melhor para as condições do mundo real, onde a colocação do objeto em uma imagem é imprevisível.

__wf_reserved_inherit
Fig. 2. Diferentes métodos de aumento relacionados com a orientação e a posição.

Redimensionamento e recorte

Com relação às soluções de visão computacional do mundo real, os objetos nas imagens podem aparecer em diferentes distâncias e tamanhos. Os modelos de Visão de IA devem ser robustos o suficiente para detectá-los, independentemente dessas diferenças. 

Para melhorar a adaptabilidade, os seguintes métodos de aumento podem ser usados:

  • Escalonamento: Redimensionar altera o tamanho da imagem, mantendo suas proporções, permitindo que os modelos de IA detectem objetos em diferentes distâncias.
  • Corte: Isso remove partes desnecessárias de uma imagem, ajudando o modelo a se concentrar nas áreas principais e reduzindo as distrações de fundo.
  • Cisalhamento: Inclinar ligeiramente uma imagem simula uma aparência inclinada ou esticada, ajudando a IA a reconhecer objetos de diferentes ângulos.

Esses ajustes ajudam os modelos de visão computacional a reconhecer objetos, mesmo que seu tamanho ou forma mudem ligeiramente.

Ajustes de perspectiva e distorção

Objetos em imagens podem parecer diferentes dependendo do ângulo da câmera, dificultando o reconhecimento para modelos de visão computacional. Para ajudar os modelos a lidar com essas variações, técnicas de aumento podem ajustar como os objetos são apresentados nas imagens. 

Por exemplo, as transformações de perspectiva podem alterar o ângulo de visão, fazendo com que um objeto pareça estar sendo visto de uma posição diferente. Isso permite que os modelos de Visão de IA reconheçam objetos mesmo quando estão inclinados ou capturados de um ponto de vista incomum. 

Outro exemplo é uma transformação elástica que estica, dobra ou deforma imagens para simular distorções naturais, de modo que os objetos apareçam como apareceriam em reflexos ou sob pressão. 

Modificações de cor e iluminação

As condições de iluminação e as diferenças de cor podem impactar significativamente a forma como os modelos de Visão de IA interpretam as imagens. Como os objetos podem parecer diferentes sob várias configurações de iluminação, as seguintes técnicas de aumento podem ajudar a lidar com essas situações:

  • Ajustes de brilho e contraste: Simular diferentes condições de iluminação ajuda os modelos de Visão de IA a reconhecer objetos em ambientes claros e escuros.
  • Jittering de cor: Alterar aleatoriamente a tonalidade, a saturação e o equilíbrio de cores torna os modelos de visão computacional mais adaptáveis a diferentes câmaras e condições de iluminação.
  • Conversão para escala de cinza: Converter imagens para preto e branco incentiva os modelos de Visão de IA a se concentrarem em formas e texturas em vez de cores.
__wf_reserved_inherit
Fig 3. Exemplos de aumentos relacionados a variações de cor.

Técnicas avançadas de aumento de dados de imagem

Até agora, exploramos apenas técnicas de aumento que modificam uma única imagem. No entanto, alguns métodos avançados envolvem a combinação de várias imagens para melhorar o aprendizado da IA.

Por exemplo, o MixUp combina duas imagens, ajudando os modelos de visão computacional a entender as relações entre objetos e melhorando sua capacidade de generalizar em diferentes cenários. O CutMix vai um passo além, substituindo uma seção de uma imagem por uma parte de outra, permitindo que os modelos aprendam com múltiplos contextos dentro da mesma imagem. Enquanto isso, o CutOut funciona de forma diferente, removendo partes aleatórias de uma imagem, treinando modelos de Visão de IA para reconhecer objetos mesmo quando estão parcialmente escondidos ou obstruídos.

__wf_reserved_inherit
Fig. 4. Técnicas avançadas de aumento de dados de imagem.

O papel da IA generativa no aumento de dados de imagem

A IA Generativa está ganhando força em diversos setores e aplicações cotidianas. É provável que você a tenha encontrado em relação a imagens geradas por IA, vídeos deepfake ou aplicativos que criam avatares realistas. Mas, além da criatividade e do entretenimento, a IA Generativa desempenha um papel crucial no treinamento de modelos de Visão de IA, gerando novas imagens a partir de imagens existentes.

Em vez de simplesmente inverter ou girar imagens, ela pode criar variações realistas - alterando expressões faciais, estilos de roupa ou até mesmo simulando diferentes condições climáticas. Essas variações ajudam os modelos de visão computacional a se tornarem mais adaptáveis e precisos em diversos cenários do mundo real. Modelos avançados de IA generativa, como GANs (Redes Adversárias Generativas) e modelos de difusão, também podem preencher detalhes ausentes ou criar imagens sintéticas de alta qualidade.

Limitações do aumento de dados de imagem

Embora o aumento de dados melhore os conjuntos de dados de treinamento, também existem algumas limitações a serem consideradas. Aqui estão alguns desafios importantes relacionados ao aumento de dados de imagem:

  • Diversidade de dados limitada: As imagens aumentadas vêm de dados existentes e não podem introduzir padrões completamente novos ou perspetivas raras.
  • Potencial distorção de dados: Transformações excessivas podem tornar as imagens irrealistas, potencialmente reduzindo a precisão do modelo em cenários do mundo real.
  • Aumento da computação: O aumento em tempo real que ocorre durante o treinamento do modelo pode exigir um pouco de poder de processamento, diminuindo o treinamento e aumentando o uso da memória.
  • Desequilíbrio de classes permanece: O aumento não cria amostras totalmente novas, portanto, categorias sub-representadas ainda podem levar a um aprendizado enviesado.

Uma aplicação do mundo real de aumento de dados de imagem

Uma aplicação interessante do aumento de dados de imagem é em carros autônomos, onde as decisões tomadas em frações de segundo por modelos de visão computacional como o YOLO11 são cruciais. O modelo precisa ser capaz de detectar estradas, pessoas e outros objetos com precisão.

No entanto, as condições do mundo real que um veículo autônomo encontra podem ser imprevisíveis. Mau tempo, desfoque de movimento e sinais ocultos podem tornar as soluções de Visão de IA neste setor complexas. Treinar modelos de visão computacional apenas com imagens do mundo real geralmente não é suficiente. Os conjuntos de dados de imagens para os modelos em carros autônomos precisam ser diversos para que o modelo possa aprender a lidar com situações inesperadas.

A data augmentation de imagem resolve isto simulando nevoeiro, ajustando o brilho e distorcendo formas. Estas alterações ajudam os modelos a reconhecer objetos em diferentes condições. Como resultado, os modelos tornam-se mais inteligentes e fiáveis. 

Com o treinamento aumentado, as soluções de Visão de IA em carros autônomos se adaptam melhor e tomam decisões mais seguras. Resultados mais precisos significam menos acidentes e melhor navegação. 

__wf_reserved_inherit
Fig. 5. Um exemplo de aumento de dados de imagem com respeito a carros autônomos.

Carros autônomos são apenas um exemplo. De fato, o aumento de dados de imagem é crucial em uma ampla gama de setores, desde imagens médicas até análises de varejo. Qualquer aplicação que dependa da visão computacional pode se beneficiar potencialmente do aumento de dados de imagem.

Principais conclusões

Os sistemas de IA Vision precisam ser capazes de reconhecer objetos em diferentes condições, mas coletar infinitas imagens do mundo real para treinamento pode ser difícil. O aumento de dados de imagem resolve isso, criando variações de imagens existentes, ajudando os modelos a aprender mais rápido e a ter um melhor desempenho em situações do mundo real. Melhora a precisão, garantindo que os modelos de IA Vision como o YOLO11 possam lidar com diferentes iluminações, ângulos e ambientes.

Para empresas e desenvolvedores, o aumento de dados de imagem economiza tempo e esforço, ao mesmo tempo que torna os modelos de visão computacional mais confiáveis. Da área da saúde aos carros autónomos, muitos setores dependem disso. À medida que a Visão de IA continua a evoluir, o aumento continuará a ser uma parte essencial da construção de modelos mais inteligentes e adaptáveis para o futuro.

Junte-se à nossa comunidade e visite nosso repositório no GitHub para ver a IA em ação. Explore nossas opções de licenciamento e descubra mais sobre IA na agricultura e visão computacional na manufatura em nossas páginas de soluções.

Vamos construir o futuro
da IA juntos!

Comece sua jornada com o futuro do aprendizado de máquina

Comece gratuitamente
Link copiado para a área de transferência