Yolo Vision Shenzhen
Shenzhen
Junte-se agora

Aprendizagem auto-supervisionada para redução de ruído: uma análise passo a passo

Abirami Vina

Leitura de 5 minutos

2 de dezembro de 2025

Veja como funciona a aprendizagem auto-supervisionada para redução de ruído, por que as imagens ficam com ruído e os principais métodos e etapas usados para recuperar detalhes visuais nítidos.

As câmaras nem sempre capturam o mundo da forma como o vemos. Um retrato tirado com pouca luz ou uma foto de um carro em movimento rápido podem ficar granulados, desfocados ou distorcidos. 

Sensores lentos, ambientes escuros e movimento podem introduzir pequenas manchas de ruído que suavizam as bordas e ocultam detalhes importantes. Quando essa clareza é perdida, mesmo sistemas avançados de IA e aprendizagem automática podem ter dificuldade em compreender o que uma imagem contém, porque muitos sistemas inteligentes dependem desses detalhes finos para funcionar bem.

Por exemplo, a visão computacional é um ramo da inteligência artificial que permite que as máquinas interpretem imagens e vídeos. Mas, para fazer isso com precisão, os modelos de IA de visão precisam de dados visuais limpos e de alta qualidade para aprender. 

Especificamente, modelos como Ultralytics YOLO11 e o futuro Ultralytics suportam tarefas como deteção de objetos, segmentação de instâncias e estimativa de poses, e podem ser treinados de forma personalizada para diferentes casos de uso. Essas tarefas dependem de pistas visuais claras, como bordas, texturas, cores e detalhes estruturais finos. 

Quando o ruído obscurece essas características, o modelo recebe sinais de treino mais fracos, tornando mais difícil aprender padrões precisos. Como resultado, mesmo pequenas quantidades de ruído podem reduzir o desempenho em aplicações reais.

Anteriormente, vimos como a aprendizagem auto-supervisionada remove o ruído das imagens. Neste artigo, vamos aprofundar o funcionamento das técnicas de remoção de ruído auto-supervisionadas e como elas ajudam a recuperar informações visuais significativas. Vamos começar!

Tipos comuns de ruído em imagens do mundo real

Antes de explorarmos como a aprendizagem auto-supervisionada é utilizada na redução de ruído em imagens, vamos primeiro revisitar por que as imagens ficam com ruído.

As imagens de objetos e cenas do mundo real raramente são perfeitas. A baixa iluminação, a qualidade limitada do sensor e o movimento rápido podem introduzir perturbações aleatórias em pixels individuais em toda a imagem. Essas perturbações ao nível dos pixels, conhecidas como ruído, reduzem a nitidez geral e tornam os detalhes importantes mais difíceis de ver.

Quando o ruído esconde contornos, texturas e padrões subtis, os sistemas de visão computacional têm dificuldade em reconhecer objetos ou interpretar cenas com precisão. Condições diferentes produzem tipos diferentes de ruído, cada um afetando a imagem à sua maneira.

Fig. 1. Um exemplo de como o ruído pode causar maior incerteza numa imagem. (Fonte)

Aqui estão alguns dos tipos mais comuns de ruído encontrados nas imagens:

  • Ruído gaussiano: este tipo de ruído aparece como granulação suave e aleatória causada por interferência do sensor eletrónico ou flutuações térmicas. Segue uma distribuição gaussiana (normal), em que pequenas variações de píxeis desfocam detalhes finos e reduzem a nitidez geral.
  • Ruído de Poisson: Também chamado de ruído de disparo, esse tipo de ruído ocorre em condições de pouca luz ou com tempos de exposição curtos. A sua variância aumenta com o brilho, mas o ruído é frequentemente mais perceptível em regiões mais escuras porque menos fotões são capturados, resultando numa relação sinal-ruído mais baixa.
  • Ruído sal e pimenta: Este tipo de ruído aparece como picos de pixels pretos ou brancos acentuados. É normalmente causado por erros de transmissão, corrupção de bits ou sensores de câmara defeituosos e, muitas vezes, resulta em valores de pixels ausentes ou corrompidos.
  • Ruído pontilhado: este tipo de ruído aparece como padrões granulados, semelhantes a manchas, e é comum em imagens médicas, de radar e de ultrassom. É causado por interferência e dispersão do sinal, o que reduz o contraste e torna as bordas mais difíceis de detect.

Quando se deve usar o denoising auto-supervisionado?

Então, o que torna a redução de ruído auto-supervisionada especial? Ela se destaca em situações em que imagens limpas e precisas simplesmente não existem ou são muito difíceis de capturar. 

Isso acontece frequentemente em fotografia com pouca luz, imagens com ISO elevado, imagens médicas e científicas ou qualquer ambiente em que o ruído é inevitável e a recolha de dados de referência perfeitos é irrealista. Em vez de precisar de exemplos limpos, o modelo aprende diretamente com as imagens com ruído que já possui, tornando-o adaptável aos padrões de ruído específicos da sua câmara ou sensor.

A redução de ruído auto-supervisionada também é uma ótima opção quando se deseja melhorar o desempenho de tarefas de visão computacional a jusante, mas o conjunto de dados está repleto de imagens inconsistentes ou com ruído. Ao recuperar bordas, texturas e estruturas mais nítidas, esses métodos ajudam modelos como YOLO detect, segment e compreender cenas de forma mais confiável. Em resumo, se estiver a trabalhar com dados ruidosos e não houver imagens de treino limpas disponíveis, a redução de ruído auto-supervisionada geralmente oferece a solução mais prática e eficaz.

As principais técnicas que impulsionam a redução de ruído auto-supervisionada

Como vimos anteriormente, a redução de ruído auto-supervisionada é uma abordagem de IA baseada em deep learning que permite que os modelos aprendam diretamente a partir de imagens com ruído, sem depender de rótulos limpos. Ela se baseia nos princípios da aprendizagem auto-supervisionada, em que os modelos geram os seus próprios sinais de treino a partir dos próprios dados.

Em outras palavras, um modelo pode aprender sozinho usando imagens com ruído como entrada e fonte do seu sinal de aprendizagem. Ao comparar diferentes versões corrompidas da mesma imagem ou prever pixels mascarados, o modelo aprende quais padrões representam a estrutura real e quais são apenas ruído. Por meio da otimização iterativa e do reconhecimento de padrões, a rede melhora gradualmente a sua capacidade de distinguir o conteúdo significativo da imagem da variação aleatória.

Fig. 2. Uma imagem bruta e uma imagem sem ruído. (Fonte)

Isso é possível graças a estratégias de aprendizagem específicas que orientam o modelo a separar a estrutura estável da imagem do ruído aleatório. A seguir, vamos examinar mais de perto as principais técnicas e algoritmos que otimizam esse processo e como cada abordagem ajuda os modelos a reconstruir imagens mais nítidas e confiáveis.

Métodos de redução de ruído de imagem por pares

Muitos dos primeiros métodos de aprendizagem auto-supervisionada para redução de ruído funcionavam comparando duas versões ruidosas da mesma imagem. Como o ruído muda aleatoriamente cada vez que uma imagem é capturada ou corrompida, mas a estrutura real permanece a mesma, essas diferenças podem ser usadas como um sinal de aprendizagem para um modelo. 

Essas abordagens são comumente chamadas de métodos de redução de ruído de imagem em pares, pois dependem do uso ou da geração de pares de imagens com ruído durante o treinamento. Por exemplo, a abordagem Noise2Noise (proposta por Jaakko Lehtinen e sua equipa) treina um modelo usando duas imagens independentes com ruído da mesma cena. Como os padrões de ruído diferem entre as duas versões, o modelo aprende a identificar os detalhes consistentes que representam a imagem subjacente real.

Fig. 3. Como funciona o Noise2Noise (Fonte)

Com o tempo, isso ensina a rede a suprimir o ruído aleatório e preservar a estrutura real, mesmo que ela nunca veja uma imagem de referência limpa. Considere um cenário simples em que você tira duas fotos de uma rua com pouca luz à noite. 

Cada imagem contém os mesmos edifícios, luzes e sombras, mas o ruído granulado aparece em locais diferentes. Ao comparar essas duas fotos com ruído durante o treino, um modelo auto-supervisionado pode aprender quais padrões visuais são estáveis e quais são causados por ruído, melhorando, em última análise, a sua capacidade de reconstruir imagens mais nítidas.

Métodos de aprendizagem auto-supervisionada baseados em pontos cegos para redução de ruído

Enquanto os métodos pareados dependem da comparação de duas versões corrompidas de uma mesma imagem, os métodos de ponto cego adotam uma abordagem diferente. Eles permitem que um modelo aprenda a partir de uma única imagem com ruído, ocultando pixels selecionados para que a rede não consiga ver os seus valores corrompidos. 

O modelo deve então prever os pixels ocultos usando apenas o contexto circundante. A ideia central é que o ruído é aleatório, mas a estrutura subjacente de uma imagem não é. 

Ao impedir que o modelo copie o valor ruidoso de um pixel, os métodos de ponto cego incentivam-no a inferir qual deve ser esse pixel com base em padrões de imagem estáveis, como bordas próximas, texturas ou gradientes de cor. Técnicas como Noise2Void (introduzida por Alexander Krull e sua equipa) e Noise2Self (desenvolvida por Joshua Batson e Loïc Royer) implementam esse princípio mascarando pixels individuais ou pequenas áreas vizinhas e treinando o modelo para reconstruí-los.

Abordagens mais avançadas, incluindo Noise2Same e PN2V, melhoram a robustez ao impor previsões consistentes em várias versões mascaradas ou ao modelar explicitamente a distribuição do ruído para estimar a incerteza. Como esses métodos requerem apenas uma única imagem com ruído, eles são especialmente úteis em domínios onde capturar imagens limpas ou emparelhadas é impraticável ou impossível, como microscopia, astronomia, imagens biomédicas ou fotografia com pouca luz.

Métodos de redução de ruído suportados por transformadores

A maioria dos métodos de redução de ruído auto-supervisionados por pares e ponto cego dependem de redes neurais convolucionais (CNNs) ou redes de redução de ruído. As CNNs são uma ótima opção para essas abordagens porque se concentram em padrões locais, ou seja, bordas, texturas e pequenos detalhes. 

Arquiteturas como a U-Net são amplamente utilizadas, pois combinam características detalhadas com informações em várias escalas. No entanto, as CNNs operam principalmente em áreas limitadas, o que significa que podem perder relações importantes que abrangem regiões maiores de uma imagem.

Métodos de redução de ruído de última geração suportados por transformadores foram introduzidos para resolver essa limitação. Em vez de analisar apenas os pixels próximos, o método proposto usa mecanismos de atenção para compreender como as diferentes partes de uma imagem se relacionam entre si. 

Alguns modelos utilizam atenção global total, enquanto outros utilizam atenção baseada em janelas ou hierárquica para reduzir a computação, mas, em geral, eles são projetados para capturar estruturas de longo alcance que as CNNs por si só não conseguem. Essa visão mais ampla ajuda o modelo a restaurar texturas repetitivas, superfícies lisas ou objetos grandes que exigem informações de toda a imagem.

Outros métodos de redução de ruído de imagem

Além das técnicas auto-supervisionadas, existem também várias outras maneiras de limpar imagens com ruído. Métodos tradicionais, como filtragem bilateral, redução de ruído wavelet e meios não locais, usam regras matemáticas simples para suavizar o ruído enquanto tentam manter detalhes importantes. 

Entretanto, também existem abordagens de aprendizagem profunda, incluindo modelos supervisionados que aprendem a partir de pares de imagens limpas e ruidosas e redes adversárias generativas (GANs) que geram resultados mais nítidos e realistas. No entanto, esses métodos geralmente exigem melhor qualidade de imagem para o treino.

Uma análise passo a passo de como funciona a redução de ruído em imagens auto-supervisionada

Como acabámos de ver várias técnicas diferentes, pode estar a perguntar-se se cada uma delas funciona de maneira completamente diferente, dado que utilizam as suas próprias arquiteturas. No entanto, todas elas seguem um fluxo de trabalho semelhante, que começa com a preparação dos dados e termina com a avaliação do modelo.

A seguir, vamos examinar mais detalhadamente como funciona, passo a passo, o processo geral de redução de ruído auto-supervisionado em imagens. 

Passo 1: Pré-processamento e normalização

Antes que o modelo possa começar a aprender com imagens ruidosas, o primeiro passo é garantir que todas as imagens pareçam consistentes. As fotos reais podem variar muito. 

Algumas imagens podem ser muito claras, outras muito escuras e algumas podem ter cores ligeiramente diferentes. Se inserirmos essas variações diretamente num modelo, torna-se mais difícil para ele se concentrar em aprender como é o ruído.

Para lidar com isso, cada imagem passa por normalização e pré-processamento básico. Isso pode incluir dimensionamento dos valores dos pixels para um intervalo padrão, correção de variações de intensidade ou recorte e redimensionamento. O importante é que o modelo receba dados limpos que possam ser usados como entradas estáveis e comparáveis.

Passo 2: Criar um sinal de treino auto-supervisionado

Depois que as imagens forem normalizadas, o próximo passo é criar um sinal de treino que permita ao modelo aprender sem nunca ver uma imagem limpa. Os métodos de redução de ruído auto-supervisionados fazem isso garantindo que o modelo não possa simplesmente copiar os valores de pixels ruidosos que recebe. 

Em vez disso, criam situações em que o modelo deve basear-se no contexto circundante da imagem, que contém uma estrutura estável, em vez do ruído imprevisível. Diferentes métodos alcançam isso de maneiras ligeiramente diferentes, mas a ideia central é a mesma. 

Algumas abordagens ocultam ou mascaram temporariamente determinados pixels para que o modelo tenha de inferi-los a partir dos seus vizinhos, enquanto outras geram uma versão corrompida separadamente da mesma imagem ruidosa para que a entrada e o alvo contenham ruído independente. Em ambos os casos, a imagem alvo transporta informações estruturais significativas, mas impede a rede de aceder ao valor ruidoso original do pixel que deve prever.

Como o ruído muda aleatoriamente enquanto a imagem subjacente permanece consistente, essa configuração incentiva naturalmente o modelo a aprender como é a estrutura real e ignorar o ruído que varia de uma versão para outra.

Passo 3: Aprendendo a remoção de ruído para recuperar a estrutura da imagem

Com o sinal de treino em vigor, o modelo pode começar a aprender como separar a estrutura significativa da imagem do ruído através do treino do modelo. Cada vez que prevê um pixel mascarado ou novamente corrompido, deve basear-se no contexto circundante, em vez do valor ruidoso que originalmente ocupava esse local. 

Ao longo de muitas iterações ou épocas, isso ensina a rede a reconhecer os tipos de padrões que permanecem estáveis em uma imagem, como bordas, texturas e superfícies lisas. Ela também aprende a ignorar as flutuações aleatórias que caracterizam o ruído. 

Por exemplo, considere uma foto com pouca luz em que uma superfície parece extremamente granulada. Embora o ruído varie de pixel para pixel, a superfície subjacente continua lisa. Ao inferir repetidamente os pixels ocultos nessas regiões, o modelo gradualmente se torna melhor em identificar o padrão estável sob o ruído e reconstruí-lo de forma mais limpa. 

Através do processo de treino do modelo, a rede aprende uma representação interna da estrutura da imagem. Isso permite que o modelo recupere detalhes coerentes, mesmo quando a entrada está muito corrompida.

Etapa 4: Resultados da validação e redução de ruído

Depois que o modelo aprende a prever pixels ocultos ou novamente corrompidos, a etapa final é avaliar seu desempenho em imagens completas. Durante o teste, o modelo recebe uma imagem completa com ruído e produz uma versão completa sem ruído com base no que aprendeu sobre a estrutura da imagem. Para medir a eficácia desse processo, a saída é comparada com imagens de referência limpas ou conjuntos de dados de referência padrão.

Duas métricas comumente utilizadas são PSNR (Peak Signal-to-Noise Ratio, ou relação sinal-ruído de pico), que mede o quão próxima a reconstrução está da verdadeira realidade, e SSIM (Structural Similarity Index, ou índice de similaridade estrutural), que avalia o quão bem características importantes, como bordas e texturas, são preservadas. Pontuações mais altas geralmente indicam uma redução de ruído mais precisa e visualmente confiável.

Conjuntos de dados de imagens utilizados para treino e benchmarking

A investigação sobre redução de ruído auto-supervisionada, publicada em revistas da IEEE e conferências CVF, entre outras, CVPR, ICCV e ECCV, bem como amplamente distribuída na arXiv, baseia-se frequentemente numa combinação de conjuntos de dados sintéticos e reais para avaliar o desempenho do modelo de métodos de aprendizagem profunda em condições controladas e práticas. Por um lado, os conjuntos de dados sintéticos começam com imagens limpas e adicionam ruído artificial, facilitando a comparação de métodos utilizando métricas como PSNR e SSIM.

Aqui estão alguns conjuntos de dados populares comumente usados com ruído sintético adicionado para benchmarking:

  • Kodak24: Este conjunto de dados fornece fotografias de cenas naturais de alta qualidade, comumente utilizadas para comparar visualmente os resultados da redução de ruído.

  • DIV2K: Este conjunto de dados de alta resolução contém imagens diversas e detalhadas utilizadas para avaliar a fidelidade da textura e a qualidade geral da restauração.

Por outro lado, conjuntos de dados reais com ruído contêm imagens capturadas diretamente de sensores de câmaras em condições de pouca luz, ISO alto ou outras condições desafiadoras. Esses conjuntos de dados testam se um modelo é capaz de lidar com ruído complexo e não gaussiano que não pode ser facilmente simulado.

Aqui estão alguns conjuntos de dados reais populares com ruído:

  • SIDD: Este conjunto de dados fornece pares de imagens reais com ruído e sem ruído, capturadas com sensores de smartphones em diversos ambientes de iluminação.

  • DND: Inclui fotografias com ISO elevado que capturam padrões realistas de ruído do sensor encontrados em câmaras fotográficas de consumo.

Fig. 4. Um exemplo do conjunto de dados do DND. (Fonte)

Fatores a considerar ao treinar um modelo de redução de ruído auto-supervisionado

Aqui estão alguns fatores e limitações a serem considerados se você for treinar um modelo de redução de ruído auto-supervisionado baseado em deep learning:

  • Corresponda a distribuição do ruído: as imagens ruidosas utilizadas para o treino devem refletir o mesmo ruído que o modelo encontrará na utilização real; ruídos incompatíveis levam a uma generalização deficiente.
  • Garanta a diversidade dos dados de treino: variações limitadas podem causar sobreajuste ou suavização excessiva em texturas complexas.
  • Esteja ciente das limitações do tipo de ruído: os métodos auto-supervisionados têm mais dificuldade com ruídos estruturados, correlacionados ou não aleatórios.
  • Teste em diferentes dispositivos ou sensores: o desempenho da redução de ruído pode variar muito entre câmaras ou sistemas de imagem.

Principais conclusões

A redução de ruído auto-supervisionada oferece aos entusiastas da IA uma maneira prática de limpar imagens usando apenas os dados ruidosos que já temos. Ao aprender a reconhecer a estrutura real por baixo do ruído, esses métodos podem recuperar detalhes visuais importantes. À medida que a tecnologia de redução de ruído continua a melhorar, ela provavelmente tornará uma ampla gama de tarefas de visão computacional mais confiáveis em ambientes cotidianos.

Faça parte da nossa comunidade em crescimento! Explore o nosso repositório GitHub para saber mais sobre IA. Se pretende criar soluções de visão computacional, consulte as nossas opções de licenciamento. Explore os benefícios da visão computacional no retalho e veja como a IA na indústria está a fazer a diferença!

Vamos construir o futuro
da IA juntos!

Comece sua jornada com o futuro do aprendizado de máquina

Comece gratuitamente