Como a aprendizagem auto-supervisionada melhora a redução de ruído da imagem

As imagens fazem parte do nosso quotidiano, desde as fotografias que tiramos até aos vídeos gravados por câmaras em locais públicos. Elas contêm informações perspicazes, e a tecnologia de ponta permite analisar e interpretar esses dados.

Em particular, a visão por computador, um ramo da inteligência artificial (IA), permite que as máquinas processem a informação visual e compreendam o que vêem, tal como os humanos. No entanto, nas aplicações do mundo real, as imagens estão muitas vezes longe de ser perfeitas.

O ruído da imagem causado pela chuva, poeira, pouca luz ou limitações do sensor pode ocultar detalhes importantes, dificultando a detect objectos ou a interpretação precisa de cenas por parte dos modelos de IA de visão. A redução de ruído da imagem ajuda a reduzir esse ruído, permitindo que os modelos de IA de visão vejam os detalhes com mais clareza e façam melhores previsões.

‍

Fig. 1. Um exemplo de denoising de uma imagem.(Fonte)

‍

Tradicionalmente, a remoção de ruído de imagens baseia-se na aprendizagem supervisionada, em que os modelos são treinados utilizando pares de imagens com ruído e limpas para aprender a remover o ruído. No entanto, a recolha de imagens de referência perfeitamente limpas nem sempre é prática.

Para fazer face a este desafio, os investigadores desenvolveram desnaturalizadores de imagem auto-supervisionados. O seu objetivo é formar modelos de IA para aprenderem diretamente com os dados, criando os seus próprios sinais de aprendizagem para remover o ruído e manter os detalhes importantes sem necessitar de imagens de referência limpas.

Neste artigo, vamos analisar mais detalhadamente os denoisers de imagem auto-supervisionados, como funcionam, as principais técnicas por detrás deles e as suas aplicações no mundo real. Vamos começar!

O que é a eliminação de ruído de imagem auto-supervisionada?

As imagens ruidosas podem dificultar a interpretação do que está numa fotografia por parte dos modelos de IA da Vision. Uma fotografia tirada em condições de pouca luz, por exemplo, pode parecer granulada ou desfocada, ocultando caraterísticas subtis que ajudam um modelo a identificar objectos com precisão.

Na eliminação de ruído baseada na aprendizagem supervisionada, os modelos são treinados utilizando pares de imagens, uma com ruído e outra limpa, para aprender a remover o ruído indesejado. Embora esta abordagem funcione bem, a recolha de dados de referência perfeitamente limpos é muitas vezes morosa e difícil em cenários reais.

É por isso que os investigadores se voltaram para a redução de ruído de imagens auto-supervisionada. A redução de ruído de imagens auto-supervisionada baseia-se no conceito de aprendizagem auto-supervisionada, em que os modelos se ensinam a si próprios criando os seus próprios sinais de aprendizagem a partir dos dados.

Uma vez que este método não depende de grandes conjuntos de dados rotulados, a redução de ruído auto-supervisionada é mais rápida, mais escalável e mais fácil de aplicar em domínios como a fotografia com pouca luz, a imagiologia médica e a análise de imagens de satélite, em que as imagens de referência limpas não estão frequentemente disponíveis.

Em vez de se basear em imagens de referência limpas, esta abordagem treina diretamente em dados ruidosos, prevendo pixels mascarados ou reconstruindo partes em falta. Através deste processo, o modelo aprende a distinguir entre detalhes de imagem significativos e ruído aleatório, conduzindo a resultados mais claros e precisos.

Embora possa parecer semelhante à aprendizagem não supervisionada, a aprendizagem auto-supervisionada é, na realidade, um caso especial da mesma. A principal distinção é que, na aprendizagem auto-supervisionada, o modelo cria as suas próprias etiquetas ou sinais de treino a partir dos dados para aprender uma tarefa específica. Em contrapartida, a aprendizagem não supervisionada centra-se na procura de padrões ou estruturas ocultas nos dados sem qualquer tarefa explícita ou objetivo predefinido.

Estratégias de aprendizagem em denoising auto-supervisionado

No que respeita à redução de ruído auto-supervisionada, existem várias formas de aprendizagem. Alguns modelos de redução de ruído auto-supervisionados preenchem os pixels mascarados ou em falta, enquanto outros comparam várias versões ruidosas da mesma imagem para encontrar detalhes consistentes.

Por exemplo, um método popular conhecido como aprendizagem do ponto cego centra-se no treino do modelo de redução de ruído para ignorar o pixel que está a reconstruir e confiar no contexto circundante. Ao longo do tempo, o modelo reconstrói imagens de alta qualidade, preservando as texturas, os bordos e as cores essenciais.

Como funciona a aprendizagem auto-supervisionada para remover o ruído

Em seguida, vamos explorar o processo subjacente à forma como a aprendizagem auto-supervisionada elimina o ruído.

O processo de redução de ruído auto-supervisionado começa normalmente por alimentar o modelo de redução de ruído com imagens com ruído. O modelo analisa os pixéis próximos para estimar o aspeto que cada pixel pouco nítido ou mascarado deve ter, aprendendo gradualmente a distinguir entre ruído e detalhes visuais reais.

Considere uma imagem de um céu escuro e granulado. O modelo olha para as estrelas próximas e para os padrões circundantes para prever o aspeto que cada mancha ruidosa deveria ter sem o ruído. Ao repetir este processo em toda a imagem, aprende a separar o ruído aleatório das caraterísticas significativas, produzindo um resultado mais claro e mais exato.

Por outras palavras, o modelo prevê uma versão mais limpa da imagem com base no contexto, sem nunca precisar de uma referência perfeitamente limpa. Este processo pode ser implementado utilizando diferentes tipos de modelos, cada um com pontos fortes únicos no tratamento do ruído.

Tipos de modelos utilizados para a redução auto-supervisionada do ruído de imagem

Eis um breve resumo dos tipos de modelos normalmente utilizados para a eliminação de ruído de imagens auto-supervisionada:

Redes Neuronais Convolucionais (CNNs): As CNNs são modelos de aprendizagem profunda concebidos para reconhecer padrões em pequenas regiões de uma imagem. Analisam imagens utilizando filtros para detect arestas, formas e texturas. Na redução de ruído auto-supervisionada, utilizam frequentemente técnicas de ponto cego, em que o pixel alvo é excluído da entrada para que o modelo preveja o seu valor com base apenas nos pixéis circundantes. Isto ajuda o modelo a evitar a cópia de ruído e, em vez disso, infere detalhes mais limpos.
Auto-codificadores: Os autoencoders são redes neuronais que aprendem a comprimir e a reconstruir dados. Começam por reduzir uma imagem numa representação mais pequena (codificação) e depois reconstroem-na (descodificação). No processo, aprendem a captar caraterísticas visuais importantes, como formas e texturas, ao mesmo tempo que filtram o ruído aleatório e os pormenores irrelevantes.
Modelos baseados em transformadores: Os transformadores são modelos originalmente desenvolvidos para o processamento de linguagem natural, mas atualmente amplamente utilizados em tarefas de visão. Processam toda a imagem de uma só vez, aprendendo a forma como as diferentes regiões se relacionam umas com as outras. Esta perspetiva global permite-lhes preservar os pequenos detalhes e a consistência estrutural, mesmo em imagens complexas ou de alta resolução.

Fig. 2. Uma arquitetura baseada em CNN utilizada para a eliminação de ruído de imagens auto-supervisionada.(Fonte)

‍

O treino destes modelos com imagens tiradas em diferentes condições de iluminação e definições ISO ajuda-os a funcionar bem em muitas situações do mundo real. Nas câmaras digitais, as definições ISO controlam a intensidade com que a câmara ilumina a imagem, amplificando o sinal que recebe.

Um ISO mais elevado torna as fotografias mais brilhantes em locais escuros, mas também aumenta o ruído e reduz os pormenores. Ao aprender com as imagens tiradas com diferentes níveis de ISO, os modelos ficam mais aptos a distinguir os detalhes reais do ruído, conduzindo a resultados mais claros e precisos.

Como é que um denoiser aprende o que é ruído e o que é real?

Os denoisers aprendem a distinguir o ruído dos detalhes reais da imagem através de diferentes técnicas de formação, que são separadas dos tipos de modelos utilizados para o denoising. Os tipos de modelos, como CNNs, autoencoders e transformers, descrevem a estrutura da rede e a forma como esta processa a informação visual.

As técnicas de formação, por outro lado, definem a forma como o modelo aprende. Alguns métodos utilizam a previsão baseada no contexto, em que o modelo preenche os pixéis em falta ou mascarados utilizando informações de áreas próximas.

Outros utilizam a aprendizagem baseada na reconstrução, em que o modelo comprime uma imagem numa forma mais simples e depois reconstrói a imagem, ajudando-a a reconhecer estruturas significativas, como arestas e texturas, enquanto filtra o ruído aleatório.

Em conjunto, o tipo de modelo e a técnica de formação determinam a eficácia com que um denoiser pode limpar imagens. Ao combinar a arquitetura certa com a abordagem de aprendizagem certa, os denoisers auto-supervisionados podem adaptar-se a muitos tipos de ruído e produzir imagens mais claras e precisas, mesmo sem dados de referência limpos.

Técnicas-chave na eliminação de ruído de imagens com IA auto-supervisionada

Seguem-se algumas das técnicas de formação mais utilizadas que permitem uma redução de ruído de imagem auto-supervisionada eficaz:

Noise2Noise: Este método treina um modelo utilizando duas versões ruidosas da mesma imagem. Uma vez que o ruído em cada versão é aleatório, o modelo aprende a concentrar-se nos detalhes consistentes que representam a imagem real e a ignorar o ruído. Funciona melhor quando estão disponíveis várias capturas ruidosas da mesma cena, como na fotografia burst ou na imagiologia médica e científica.
Noise2Void ou Noise2Self: Estas técnicas são treinadas numa única imagem com ruído, ocultando (mascarando) um pixel e pedindo ao modelo que preveja o seu valor com base nos pixéis circundantes. Isto evita que o modelo se limite a copiar dados ruidosos e ajuda-o a aprender a estrutura natural das imagens. São especialmente úteis quando apenas está disponível uma imagem com ruído, como em microscopia, astronomia ou fotografia com pouca luz.
Redes de pontos cegos: São especialmente concebidas para que o modelo não possa ver o pixel que está a reconstruir. Em vez disso, baseia-se em informações da área circundante para estimar o aspeto que o pixel deve ter. Isto torna a remoção de ruído mais exacta e imparcial e são frequentemente combinadas com os métodos Noise2Void ou Noise2Self em tarefas de redução de ruído ao nível do pixel.
Autoencodificadores mascarados (MAE): Nesta abordagem, partes de uma imagem são ocultadas e o modelo aprende a reconstruir as áreas em falta. Ao fazê-lo, aprende tanto os pormenores finos como a estrutura geral, ajudando a distinguir o conteúdo real do ruído. Os autoencoders com máscara são especialmente eficazes para imagens complexas ou de alta resolução, em que a compreensão do contexto mais alargado melhora o restauro.

Avaliação de sistemas de eliminação de ruído de imagens

A redução de ruído da imagem é um equilíbrio cuidadoso entre dois objectivos: reduzir o ruído e manter os detalhes finos intactos. Demasiada redução de ruído pode fazer com que uma imagem pareça suave ou desfocada, enquanto que muito pouco pode deixar para trás grão ou artefactos indesejados.

Para compreender até que ponto um modelo atinge este equilíbrio, os investigadores utilizam métricas de avaliação que medem a clareza da imagem e a preservação dos detalhes. Estas métricas mostram até que ponto um modelo limpa uma imagem sem perder informações visuais importantes.

Seguem-se métricas de avaliação comuns que ajudam a medir a qualidade da imagem e o desempenho da redução de ruído:

Erro médio quadrático (MSE): Mede a diferença média ao quadrado entre a imagem original e a imagem denotizada. Destaca a proximidade do resultado em relação ao original ao nível dos pixels. Valores de MSE mais baixos significam menos erros e um resultado mais exato.
Rácio sinal/ruído de pico (PSNR): Esta métrica compara a força do sinal da imagem original com o ruído restante, expresso em decibéis. É utilizada para ver quanto do detalhe original foi mantido após a redução de ruído. Valores PSNR mais elevados significam imagens mais nítidas e de maior qualidade.
Medida do Índice de Similaridade Estrutural (SSIM): O SSIM avalia a estrutura, o brilho e o contraste para avaliar a semelhança entre a imagem sem ruído e a original. Centra-se na forma como os humanos vêem as imagens e não apenas nos números brutos. Pontuações SSIM mais elevadas significam que a imagem parece mais natural e fiel ao original.
Métricas perceptuais: Estas métricas utilizam modelos de aprendizagem profunda para avaliar o aspeto realista e natural de uma imagem. Em vez de comparar pixéis individuais, concentram-se no aspeto geral, na textura e na semelhança visual. Na maioria dos casos, pontuações mais baixas significam que a imagem parece mais próxima do original e mais agradável visualmente para os humanos.

Aplicações da redução de ruído auto-supervisionada

Agora que compreendemos melhor o que é a eliminação de ruído, vamos explorar a forma como a eliminação de ruído de imagens auto-supervisionada é aplicada em cenários do mundo real.

Utilização da redução de ruído auto-supervisionada em astrofotografia

Tirar fotografias nítidas de estrelas e galáxias não é fácil. O céu noturno é escuro, pelo que as câmaras necessitam frequentemente de longos tempos de exposição, o que pode introduzir ruído indesejado. Este ruído pode desfocar detalhes cósmicos finos e tornar os sinais fracos mais difíceis de detect

As ferramentas de redução de ruído tradicionais podem ajudar a reduzir o ruído, mas muitas vezes removem pormenores importantes com ele. A redução de ruído auto-supervisionada oferece uma alternativa mais inteligente. Ao aprender diretamente a partir de imagens com ruído, o modelo de IA pode reconhecer padrões que representam caraterísticas reais e separá-los do ruído aleatório.

O resultado são imagens muito mais nítidas de objectos celestes como estrelas, galáxias e o Sol, revelando detalhes ténues que de outra forma poderiam passar despercebidos. Pode também realçar caraterísticas astronómicas subtis, melhorando a nitidez da imagem e tornando os dados mais úteis para a investigação científica.

‍

Fig. 3. A redução de ruído das imagens pode melhorar as imagens astrofotográficas.(Fonte)

‍

Denoising auto-supervisionado para imagiologia médica

Os exames médicos como as ressonâncias magnéticas, as tomografias computorizadas e as imagens de microscopia captam frequentemente ruído que pode tornar os pequenos pormenores mais difíceis de ver. Isto pode ser um problema quando os médicos precisam de detetar sinais precoces de doença ou track as alterações ao longo do tempo.

O ruído da imagem pode resultar do movimento do doente, da fraca intensidade do sinal ou dos limites da quantidade de radiação que pode ser utilizada. Para tornar os exames médicos mais nítidos, os investigadores exploraram métodos de redução de ruído auto-supervisionados como o Noise2Self e outras abordagens semelhantes.

Estes modelos são treinados diretamente em imagens de RMN do cérebro com ruído, aprendendo os padrões de ruído por si próprios e limpando-os sem necessitar de exemplos perfeitamente claros. As imagens processadas apresentaram texturas mais nítidas e melhor contraste, facilitando a identificação de estruturas finas. Estes denoisers alimentados por IA simplificam o fluxo de trabalho no diagnóstico por imagem e melhoram a eficiência da análise em tempo real.

‍

Fig. 4. Utilização de diferentes técnicas de redução de ruído auto-supervisionadas em exames de RMN do cérebro.(Fonte)

‍

Melhoria dos sistemas de visão com redução de ruído auto-supervisionada

Na maioria dos casos, a redução de ruído tem um impacto significativo numa vasta gama de aplicações de visão por computador. Ao remover ruídos e distorções indesejáveis, produz dados de entrada mais limpos e consistentes para serem processados pelos modelos de IA de visão.

Imagens mais nítidas conduzem a um melhor desempenho em tarefas de visão computacional, como a deteção de objectos, a segmentação de instâncias e o reconhecimento de imagens. Eis alguns exemplos de aplicações em que os modelos de IA de visão, tais como Ultralytics YOLO11 e Ultralytics YOLO26, podem beneficiar da redução de ruído:

Inspeção industrial: A redução de ruído permite uma deteção mais precisa de defeitos ou anomalias de superfície em ambientes de fabrico, o que leva a um melhor controlo de qualidade.
Condução e navegação autónomas: Melhora a deteção de objectos e obstáculos em condições difíceis, como pouca luz, chuva ou nevoeiro, melhorando a segurança e a fiabilidade gerais.
Vigilância e segurança: A redução de ruído melhora a qualidade da imagem em transmissões de vídeo com pouca luz ou com elevada compressão, permitindo uma melhor identificação e localização de objectos ou pessoas.
Imagens subaquáticas: A redução de ruído reduz a dispersão e a distorção da luz, melhorando a visibilidade e o reconhecimento de objectos em condições subaquáticas turvas.

Prós e contras da redução de ruído auto-supervisionada

Eis algumas das principais vantagens da utilização da redução de ruído auto-supervisionada em sistemas de imagiologia:

Adaptabilidade ao ruído: Os métodos de redução de ruído auto-supervisionados podem aprender diretamente com dados ruidosos sem necessitar de referências limpas emparelhadas. Isto torna-os altamente adaptáveis a uma vasta gama de níveis e tipos de ruído do mundo real, como o ruído do sensor, a desfocagem do movimento ou a interferência ambiental.
Preservação de detalhes: Quando bem concebidos, estes modelos preservam as texturas finas e os bordos que são essenciais para uma interpretação exacta da imagem. Abordagens como as redes de pontos cegos e a aprendizagem baseada em máscaras ajudam a manter a informação estrutural e a reduzir o ruído.
Menos pré-processamento: Ao aprender a mapear entradas ruidosas para representações limpas, utilizando apenas os dados disponíveis, o modelo minimiza a necessidade de filtragem manual, algoritmos de redução de ruído feitos à mão ou conjuntos de dados de treino selecionados.

Apesar das suas vantagens, a redução de ruído auto-supervisionada também tem algumas limitações. Eis alguns factores a considerar:

Requisitos computacionais: As arquitecturas neurais profundas utilizadas para a redução de ruído auto-supervisionada, especialmente os modelos baseados em transformadores, podem exigir uma potência computacional e recursos de memória substanciais em comparação com as técnicas de filtragem tradicionais.
Complexidade da conceção do modelo: A obtenção de resultados óptimos requer uma seleção cuidadosa das definições do modelo, como a estratégia de mascaramento e a função de perda, que podem variar entre diferentes tipos de ruído.
Desafios da avaliação: As métricas comuns de qualidade de imagem nem sempre correspondem ao aspeto natural ou realista de uma imagem com redução de ruído, pelo que são frequentemente necessárias verificações visuais ou específicas da tarefa.

Principais conclusões

A redução de ruído auto-supervisionada ajuda os modelos de IA a aprender diretamente a partir de imagens com ruído, produzindo resultados mais nítidos e preservando os detalhes mais finos. Funciona eficazmente numa variedade de cenários desafiantes, tais como pouca luz, ISO elevado e imagens detalhadas. À medida que a IA continua a evoluir, estas técnicas desempenharão provavelmente um papel essencial em várias aplicações de visão por computador.

Junte-se à nossa comunidade e explore o nosso repositório GitHub para descobrir mais sobre IA. Se pretende criar o seu próprio projeto de IA de visão, consulte as nossas opções de licenciamento. Explore mais sobre aplicações como a IA nos cuidados de saúde e a IA de visão no retalho visitando as nossas páginas de soluções.

Utilizar a aprendizagem auto-supervisionada para eliminar o ruído das imagens

O que é a eliminação de ruído de imagem auto-supervisionada?

Estratégias de aprendizagem em denoising auto-supervisionado

Como funciona a aprendizagem auto-supervisionada para remover o ruído

Tipos de modelos utilizados para a redução auto-supervisionada do ruído de imagem

Como é que um denoiser aprende o que é ruído e o que é real?

Avaliação de sistemas de eliminação de ruído de imagens

Aplicações da redução de ruído auto-supervisionada

Utilização da redução de ruído auto-supervisionada em astrofotografia

Denoising auto-supervisionado para imagiologia médica

Melhoria dos sistemas de visão com redução de ruído auto-supervisionada

Prós e contras da redução de ruído auto-supervisionada

Principais conclusões

Leia mais nesta categoria

Compreender por que a anotação humana no ciclo é fundamental

Os óculos Oakley Meta AI estão a redefinir os óculos com a Vision AI

A visão computacional está a tornar os binóculos para observação de aves mais inteligentes

Vamos construir o futuro
da IA juntos!

Utilizar a aprendizagem auto-supervisionada para eliminar o ruído das imagens

O que é a eliminação de ruído de imagem auto-supervisionada?

Estratégias de aprendizagem em denoising auto-supervisionado

Como funciona a aprendizagem auto-supervisionada para remover o ruído

Tipos de modelos utilizados para a redução auto-supervisionada do ruído de imagem

Como é que um denoiser aprende o que é ruído e o que é real?

Avaliação de sistemas de eliminação de ruído de imagens

Aplicações da redução de ruído auto-supervisionada

Utilização da redução de ruído auto-supervisionada em astrofotografia

Denoising auto-supervisionado para imagiologia médica

Melhoria dos sistemas de visão com redução de ruído auto-supervisionada

Prós e contras da redução de ruído auto-supervisionada

Principais conclusões

Leia mais nesta categoria

Compreender por que a anotação humana no ciclo é fundamental

Os óculos Oakley Meta AI estão a redefinir os óculos com a Vision AI

A visão computacional está a tornar os binóculos para observação de aves mais inteligentes

Vamos construir o futuro da IA juntos!

Vamos construir o futuro
da IA juntos!