Al hacer clic en “Aceptar todas las cookies”, aceptas el almacenamiento de cookies en tu dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información
Configuración de cookies
Al hacer clic en “Aceptar todas las cookies”, aceptas el almacenamiento de cookies en tu dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información
Descubra cómo funciona el aprendizaje auto-supervisado para la eliminación de ruido, por qué las imágenes se vuelven ruidosas y los métodos y pasos clave que se utilizan para recuperar detalles visuales nítidos.
Las cámaras no siempre capturan el mundo tal y como lo vemos. Un retrato tomado con poca luz o una foto de un coche en movimiento pueden aparecer granulados, borrosos o distorsionados.
Los sensores lentos, los entornos oscuros y el movimiento pueden introducir pequeñas motas de ruido que suavizan los bordes y ocultan detalles importantes. Cuando se pierde esta claridad, incluso los sistemas avanzados de inteligencia artificial y aprendizaje automático pueden tener dificultades para comprender lo que contiene una imagen, ya que muchos sistemas inteligentes dependen de esos pequeños detalles para funcionar correctamente.
Por ejemplo, la visión artificial es una rama de la inteligencia artificial que permite a las máquinas interpretar imágenes y vídeos. Pero para hacerlo con precisión, los modelos de IA de visión necesitan datos visuales limpios y de alta calidad con los que aprender.
En concreto, modelos como Ultralytics YOLO11 y el próximo Ultralytics admiten tareas como la detección de objetos, la segmentación de instancias y la estimación de poses, y pueden entrenarse de forma personalizada para diferentes casos de uso. Estas tareas se basan en señales visuales claras como bordes, texturas, colores y detalles estructurales finos.
Cuando el ruido oscurece estas características, el modelo recibe señales de entrenamiento más débiles, lo que dificulta el aprendizaje de patrones precisos. Como resultado, incluso pequeñas cantidades de ruido pueden reducir el rendimiento en aplicaciones reales.
Anteriormente, vimos cómo el aprendizaje auto-supervisado elimina el ruido de las imágenes. En este artículo, profundizaremos en cómo funcionan las técnicas de eliminación de ruido auto-supervisadas y cómo ayudan a recuperar información visual significativa. ¡Empecemos!
Tipos comunes de ruido en imágenes del mundo real
Antes de explorar cómo se utiliza el aprendizaje auto-supervisado en la eliminación de ruido en imágenes, repasemos primero por qué las imágenes se vuelven ruidosas en primer lugar.
Las imágenes de objetos y escenas del mundo real rara vez son perfectas. La poca iluminación, la calidad limitada del sensor y el movimiento rápido pueden introducir perturbaciones aleatorias en píxeles individuales de la imagen. Estas perturbaciones a nivel de píxel, conocidas como ruido, reducen la claridad general y dificultan la visualización de detalles importantes.
Cuando el ruido oculta los bordes, las texturas y los patrones sutiles, los sistemas de visión artificial tienen dificultades para reconocer objetos o interpretar escenas con precisión. Las diferentes condiciones producen diferentes tipos de ruido, cada uno de los cuales afecta a la imagen a su manera.
Fig. 1. Ejemplo de cómo el ruido puede aumentar la incertidumbre en una imagen. (Fuente)
Estos son algunos de los tipos de ruido más comunes que se encuentran en las imágenes:
Ruido gaussiano: este tipo de ruido aparece como un grano suave y aleatorio causado por la interferencia del sensor electrónico o las fluctuaciones térmicas. Sigue una distribución gaussiana (normal), en la que pequeñas variaciones de píxeles difuminan los detalles finos y reducen la nitidez general.
Ruido de Poisson: también denominado ruido de disparo, este tipo de ruido se produce en condiciones de poca luz o con tiempos de exposición cortos. Su varianza aumenta con el brillo, pero el ruido suele ser más perceptible en las regiones más oscuras, ya que se capturan menos fotones, lo que da lugar a una relación señal-ruido más baja.
Ruido sal y pimienta: este tipo de ruido aparece como picos de píxeles negros o blancos muy marcados. Suele estar causado por errores de transmisión, corrupción de bits o sensores de cámara defectuosos, y a menudo provoca la pérdida o corrupción de valores de píxeles.
Ruido moteado: este tipo de ruido aparece como patrones granulados similares a manchas y es habitual en imágenes médicas, de radar y de ultrasonidos. Está causado por la interferencia y la dispersión de la señal, lo que reduce el contraste y dificulta detect de los bordes.
¿Cuándo se debe utilizar el desruido auto-supervisado?
Entonces, ¿qué hace que el denoising auto-supervisado sea especial? Destaca en situaciones en las que simplemente no existen imágenes limpias y veraces o son demasiado difíciles de capturar.
Esto suele ocurrir en la fotografía con poca luz, la captura de imágenes con ISO alto, la captura de imágenes médicas y científicas, o cualquier entorno en el que el ruido sea inevitable y no sea realista recopilar datos de referencia perfectos. En lugar de necesitar ejemplos limpios, el modelo aprende directamente de las imágenes con ruido que ya tienes, lo que lo hace adaptable a los patrones de ruido específicos de tu cámara o sensor.
El desruido auto-supervisado también es una excelente opción cuando se desea mejorar el rendimiento de las tareas de visión artificial posteriores, pero el conjunto de datos está lleno de imágenes inconsistentes o con ruido. Al recuperar bordes, texturas y estructuras más nítidas, estos métodos ayudan a modelos como YOLO detect, segment y comprender las escenas de forma más fiable. En resumen, si se trabaja con datos ruidosos y no se dispone de imágenes de entrenamiento limpias, el desruido auto-supervisado suele ofrecer la solución más práctica y eficaz.
Las técnicas fundamentales que impulsan la eliminación de ruido auto-supervisada
Como hemos visto anteriormente, la eliminación de ruido auto-supervisada es un enfoque de IA basado en el aprendizaje profundo que permite a los modelos aprender directamente a partir de imágenes con ruido sin depender de etiquetas limpias. Se basa en los principios del aprendizaje auto-supervisado, en el que los modelos generan sus propias señales de entrenamiento a partir de los propios datos.
En otras palabras, un modelo puede aprender por sí mismo utilizando imágenes con ruido como entrada y como fuente de su señal de aprendizaje. Al comparar diferentes versiones corruptas de la misma imagen o predecir píxeles enmascarados, el modelo aprende qué patrones representan la estructura real y cuáles son solo ruido. Mediante la optimización iterativa y el reconocimiento de patrones, la red mejora gradualmente su capacidad para distinguir el contenido significativo de la imagen de la variación aleatoria.
Fig. 2. Una imagen sin procesar y una imagen con ruido eliminado. (Fuente)
Esto es posible gracias a estrategias de aprendizaje específicas que guían al modelo para separar la estructura estable de la imagen del ruido aleatorio. A continuación, veamos más de cerca las técnicas y algoritmos fundamentales que optimizan este proceso y cómo cada enfoque ayuda a los modelos a reconstruir imágenes más limpias y fiables.
Métodos de eliminación de ruido por pares en imágenes
Muchos de los primeros métodos de aprendizaje auto-supervisado para la eliminación de ruido funcionaban comparando dos versiones ruidosas de la misma imagen. Dado que el ruido cambia aleatoriamente cada vez que se captura o se corrompe una imagen, pero la estructura real permanece igual, estas diferencias pueden utilizarse como señal de aprendizaje para un modelo.
Estos enfoques se denominan comúnmente métodos de eliminación de ruido por pares de imágenes, ya que se basan en el uso o la generación de pares de imágenes con ruido durante el entrenamiento. Por ejemplo, el enfoque Noise2Noise (propuesto por Jaakko Lehtinen y su equipo) entrena un modelo utilizando dos imágenes independientes con ruido de la misma escena. Dado que los patrones de ruido difieren entre las dos versiones, el modelo aprende a identificar los detalles consistentes que representan la imagen subyacente real.
Con el tiempo, esto enseña a la red a suprimir el ruido aleatorio y preservar la estructura real, aunque nunca vea una imagen de referencia limpia. Consideremos un escenario sencillo en el que se toman dos fotos de una calle con poca luz por la noche.
Cada imagen contiene los mismos edificios, luces y sombras, pero el ruido granulado aparece en diferentes lugares. Al comparar estas dos fotos con ruido durante el entrenamiento, un modelo auto-supervisado puede aprender qué patrones visuales son estables y cuáles son causados por el ruido, mejorando en última instancia su capacidad para reconstruir imágenes más limpias.
Métodos de aprendizaje autodirigido basados en puntos ciegos para la eliminación de ruido
Mientras que los métodos por pares se basan en la comparación de dos versiones diferentes y corruptas de la misma imagen, los métodos de punto ciego adoptan un enfoque diferente. Permiten que un modelo aprenda a partir de una única imagen con ruido ocultando píxeles seleccionados para que la red no pueda ver sus valores corruptos.
A continuación, el modelo debe predecir los píxeles ocultos utilizando únicamente el contexto circundante. La idea central es que el ruido es aleatorio, pero la estructura subyacente de una imagen no lo es.
Al impedir que el modelo copie el valor ruidoso de un píxel, los métodos de punto ciego lo animan a inferir cuál debería ser ese píxel basándose en patrones de imagen estables, como bordes cercanos, texturas o degradados de color. Técnicas como Noise2Void (introducida por Alexander Krull y su equipo) y Noise2Self (desarrollada por Joshua Batson y Loïc Royer) aplican este principio enmascarando píxeles individuales o pequeños vecindarios y entrenando al modelo para reconstruirlos.
Los enfoques más avanzados, como Noise2Same y PN2V, mejoran la solidez al aplicar predicciones coherentes en múltiples versiones enmascaradas o al modelar explícitamente la distribución del ruido para estimar la incertidumbre. Dado que estos métodos solo requieren una única imagen con ruido, resultan especialmente útiles en ámbitos en los que capturar imágenes limpias o emparejadas es poco práctico o imposible, como la microscopía, la astronomía, la imagen biomédica o la fotografía con poca luz.
Métodos de eliminación de ruido asistidos por transformadores
La mayoría de los métodos de eliminación de ruido auto-supervisados por pares y de punto ciego se basan en redes neuronales convolucionales (CNN) o redes de eliminación de ruido. Las CNN son una excelente opción para estos enfoques porque se centran en patrones locales, es decir, bordes, texturas y pequeños detalles.
Las arquitecturas como U-Net se utilizan ampliamente, ya que combinan características detalladas con información a múltiples escalas. Sin embargo, las CNN operan principalmente dentro de vecindades limitadas, lo que significa que pueden pasar por alto relaciones importantes que abarcan regiones más amplias de una imagen.
Para solucionar esta limitación, se introdujeron métodos de eliminación de ruido de última generación basados en transformadores. En lugar de fijarse únicamente en los píxeles cercanos, el método propuesto utiliza mecanismos de atención para comprender cómo se relacionan entre sí las diferentes partes de una imagen.
Algunos modelos utilizan la atención global completa, mientras que otros utilizan la atención basada en ventanas o jerárquica para reducir el cálculo, pero en general, están diseñados para capturar estructuras de largo alcance que las CNN por sí solas no pueden. Esta visión más amplia ayuda al modelo a restaurar texturas repetitivas, superficies lisas u objetos grandes que requieren información de toda la imagen.
Otros métodos de eliminación de ruido en imágenes
Aparte de las técnicas auto-supervisadas, también hay otras formas de limpiar imágenes con ruido. Los métodos tradicionales, como el filtrado bilateral, la eliminación de ruido con ondículas y los medios no locales, usan reglas matemáticas simples para suavizar el ruido mientras tratan de mantener los detalles importantes.
Por otra parte, también existen enfoques de aprendizaje profundo, como los modelos supervisados que aprenden a partir de pares de imágenes limpias y ruidosas, y las redes generativas adversarias (GAN), que generan resultados más nítidos y realistas. Sin embargo, estos métodos suelen requerir una mejor calidad de imagen para el entrenamiento.
Una mirada paso a paso al funcionamiento del desruido de imágenes auto-supervisado.
Dado que acabamos de repasar varias técnicas diferentes, es posible que te preguntes si cada una de ellas funciona de una manera completamente diferente, ya que utilizan sus propias arquitecturas. Sin embargo, todas siguen un proceso similar que comienza con la preparación de los datos y termina con la evaluación del modelo.
A continuación, veamos más de cerca cómo funciona paso a paso el proceso general de eliminación de ruido en imágenes auto-supervisado.
Paso 1: Preprocesamiento y normalización
Antes de que el modelo pueda empezar a aprender a partir de imágenes ruidosas, el primer paso es asegurarse de que todas las imágenes tengan un aspecto coherente. Las fotos reales pueden variar mucho.
Algunas imágenes pueden ser demasiado brillantes, otras demasiado oscuras y algunas pueden tener colores ligeramente desviados. Si introducimos estas variaciones directamente en un modelo, le resultará más difícil centrarse en aprender cómo es el ruido.
Para gestionar esto, cada imagen se somete a un proceso de normalización y preprocesamiento básico. Esto puede incluir el escalado de los valores de píxeles a un rango estándar, la corrección de variaciones de intensidad o el recorte y cambio de tamaño. La clave es que el modelo reciba datos limpios que puedan utilizarse como entradas estables y comparables.
Paso 2: Creación de una señal de entrenamiento auto-supervisada
Una vez normalizadas las imágenes, el siguiente paso es crear una señal de entrenamiento que permita al modelo aprender sin ver nunca una imagen limpia. Los métodos de eliminación de ruido auto-supervisados lo consiguen asegurándose de que el modelo no pueda simplemente copiar los valores de píxeles ruidosos que recibe.
En su lugar, crean situaciones en las que el modelo debe basarse en el contexto circundante de la imagen, que contiene una estructura estable, en lugar del ruido impredecible. Los diferentes métodos logran esto de formas ligeramente diferentes, pero la idea central es la misma.
Algunos enfoques ocultan o enmascaran temporalmente ciertos píxeles para que el modelo tenga que inferirlos a partir de sus vecinos, mientras que otros generan una versión corrupta por separado de la misma imagen ruidosa, de modo que la entrada y el objetivo contienen ruido independiente. En ambos casos, la imagen objetivo contiene información estructural significativa, pero impide que la red acceda al valor ruidoso original del píxel que se supone que debe predecir.
Dado que el ruido cambia aleatoriamente mientras que la imagen subyacente permanece constante, esta configuración anima naturalmente al modelo a aprender cómo es la estructura real e ignorar el ruido que varía de una versión a otra.
Paso 3: Aprendizaje del desruido para recuperar la estructura de la imagen
Con la señal de entrenamiento en su lugar, el modelo puede comenzar a aprender a separar la estructura significativa de la imagen del ruido a través del entrenamiento del modelo. Cada vez que predice un píxel enmascarado o vuelto a corromper, debe basarse en el contexto circundante en lugar del valor ruidoso que ocupaba originalmente ese lugar.
A lo largo de muchas iteraciones o épocas, esto enseña a la red a reconocer los tipos de patrones que permanecen estables en una imagen, como los bordes, las texturas y las superficies lisas. También aprende a ignorar las fluctuaciones aleatorias que caracterizan al ruido.
Por ejemplo, consideremos una foto con poca luz en la que una superficie parece extremadamente granulada. Aunque el ruido varía de un píxel a otro, la superficie subyacente sigue siendo lisa. Al inferir repetidamente los píxeles ocultos en esas regiones, el modelo mejora gradualmente su capacidad para identificar el patrón estable bajo el ruido y reconstruirlo de forma más limpia.
A través del proceso de entrenamiento del modelo, la red aprende una representación interna de la estructura de la imagen. Esto permite al modelo recuperar detalles coherentes incluso cuando la entrada está muy dañada.
Paso 4: Resultados de la validación y la reducción del ruido
Una vez que el modelo ha aprendido a predecir píxeles ocultos o volver a corrompidos, el último paso es evaluar su rendimiento en imágenes completas. Durante las pruebas, el modelo recibe una imagen completa con ruido y produce una versión completa sin ruido basada en lo que ha aprendido sobre la estructura de la imagen. Para medir la eficacia de este proceso, el resultado se compara con imágenes de referencia limpias o conjuntos de datos de referencia estándar.
Dos métricas de uso común son PSNR (relación señal-ruido máxima), que mide la proximidad de la reconstrucción a la verdad fundamental limpia, y SSIM (índice de similitud estructural), que evalúa el grado de conservación de características importantes como los bordes y las texturas. Por lo general, las puntuaciones más altas indican una eliminación de ruido más precisa y visualmente fiable.
Conjuntos de datos de imágenes utilizados para el entrenamiento y la evaluación comparativa.
Las investigaciones sobre eliminación de ruido auto-supervisada, que aparecen en revistas IEEE y conferencias CVF, entre otras, CVPR, ICCV y ECCV, así como ampliamente distribuidas en arXiv, a menudo se basan en una combinación de conjuntos de datos sintéticos y del mundo real para evaluar el rendimiento del modelo de los métodos de aprendizaje profundo en condiciones tanto controladas como prácticas. Por un lado, los conjuntos de datos sintéticos comienzan con imágenes limpias y añaden ruido artificial, lo que facilita la comparación de métodos utilizando métricas como PSNR y SSIM.
A continuación se muestran algunos conjuntos de datos populares que se utilizan habitualmente con ruido sintético añadido para realizar pruebas comparativas:
Kodak24: Este conjunto de datos proporciona fotografías de escenas naturales de alta calidad que se utilizan habitualmente para comparar visualmente los resultados de la eliminación de ruido.
DIV2K: Este conjunto de datos de alta resolución contiene imágenes diversas y detalladas que se utilizan para evaluar la fidelidad de la textura y la calidad general de la restauración.
Por otro lado, los conjuntos de datos ruidosos del mundo real contienen imágenes capturadas directamente desde sensores de cámara en condiciones de poca luz, ISO alto u otras condiciones difíciles. Estos conjuntos de datos prueban si un modelo puede manejar ruido complejo no gaussiano que no se puede simular fácilmente.
A continuación se muestran algunos conjuntos de datos ruidosos populares del mundo real:
SIDD: Este conjunto de datos proporciona pares de imágenes reales con ruido y limpias capturadas con sensores de teléfonos inteligentes en una amplia gama de entornos de iluminación.
DND: Incluye fotografías con ISO alto que capturan patrones de ruido del sensor realistas que se encuentran en las cámaras de consumo.
Fig. 4. Un ejemplo del conjunto de datos del DND. (Fuente)
Factores a tener en cuenta al entrenar un modelo de eliminación de ruido auto-supervisado
A continuación se indican algunos factores y limitaciones que hay que tener en cuenta si se va a entrenar un modelo de eliminación de ruido auto-supervisado basado en el aprendizaje profundo:
Hacer coincidir la distribución del ruido: Las imágenes ruidosas utilizadas para el entrenamiento deben reflejar el mismo ruido que encontrará el modelo en su uso real; un ruido que no coincida da lugar a una generalización deficiente.
Garantizar la diversidad de los datos de entrenamiento: una variación limitada puede provocar un sobreajuste o un suavizado excesivo en texturas complejas.
Tenga en cuenta las limitaciones del tipo de ruido: los métodos auto-supervisados tienen más dificultades con el ruido estructurado, correlacionado o no aleatorio.
Prueba en diferentes dispositivos o sensores: el rendimiento del ruido puede variar mucho entre cámaras o sistemas de imagen.
Conclusiones clave
El desenruido auto-supervisado ofrece a los entusiastas de la IA una forma práctica de limpiar imágenes utilizando únicamente los datos ruidosos que ya tenemos. Al aprender a reconocer la estructura real bajo el ruido, estos métodos pueden recuperar detalles visuales importantes. A medida que la tecnología de desenruido siga mejorando, es probable que haga que una amplia gama de tareas de visión por ordenador sean más fiables en entornos cotidianos.