Aprendizaje autosupervisado para la eliminación de ruido: Un desglose paso a paso
Observa cómo funciona el aprendizaje autosupervisado para la eliminación de ruido, por qué las imágenes se vuelven ruidosas y los métodos y pasos clave utilizados para recuperar detalles visuales limpios.

Las cámaras no siempre capturan el mundo tal como lo vemos. Un retrato tomado con poca luz o la foto de un coche en movimiento pueden verse granulados, borrosos o distorsionados.
Los sensores lentos, los entornos oscuros y el movimiento pueden introducir pequeñas manchas de ruido que suavizan los bordes y ocultan detalles importantes. Cuando se pierde esta claridad, incluso los sistemas avanzados de IA y aprendizaje automático pueden tener dificultades para entender qué contiene una imagen, ya que muchos sistemas inteligentes dependen de esos detalles finos para funcionar bien.
Por ejemplo, la visión artificial es una rama de la inteligencia artificial que permite a las máquinas interpretar imágenes y vídeos. Pero para hacerlo con precisión, los modelos de IA de visión necesitan datos visuales limpios y de alta calidad para aprender.
Concretamente, modelos como Ultralytics YOLO11 y el próximo Ultralytics YOLO26 admiten tareas como la detección de objetos, la segmentación de instancias y la estimación de poses, y pueden entrenarse a medida para diferentes casos de uso. Estas tareas dependen de señales visuales claras como bordes, texturas, colores y detalles estructurales finos.
Cuando el ruido oculta estas características, el modelo recibe señales de entrenamiento más débiles, lo que dificulta el aprendizaje de patrones precisos. Como resultado, incluso pequeñas cantidades de ruido pueden reducir el rendimiento en aplicaciones reales.
Anteriormente, analizamos cómo el aprendizaje autosupervisado elimina el ruido de las imágenes. En este artículo, profundizaremos en cómo funcionan las técnicas de reducción de ruido autosupervisadas y cómo ayudan a recuperar información visual significativa. ¡Empecemos!
Link to this sectionTipos comunes de ruido en imágenes del mundo real#
Antes de explorar cómo se utiliza el aprendizaje autosupervisado en la reducción de ruido de imágenes, revisemos primero por qué las imágenes se vuelven ruidosas en primer lugar.
Las imágenes de objetos y escenas del mundo real rara vez son perfectas. La poca luz, la calidad limitada del sensor y el movimiento rápido pueden introducir perturbaciones aleatorias en píxeles individuales de la imagen. Estas alteraciones a nivel de píxel, conocidas como ruido, reducen la claridad general y hacen que los detalles importantes sean más difíciles de ver.
Cuando el ruido oculta bordes, texturas y patrones sutiles, los sistemas de visión artificial tienen dificultades para reconocer objetos o interpretar escenas con precisión. Las diferentes condiciones producen diferentes tipos de ruido, cada uno de los cuales afecta a la imagen a su manera.

Fig 1. Un ejemplo de cómo el ruido puede causar una mayor incertidumbre en una imagen. (Fuente)
Estos son algunos de los tipos de ruido más comunes que se encuentran en las imágenes:
- Ruido gaussiano: Este tipo de ruido aparece como un grano suave y aleatorio causado por interferencias del sensor electrónico o fluctuaciones térmicas. Sigue una distribución gaussiana (normal), donde las pequeñas variaciones de píxeles difuminan los detalles finos y reducen la nitidez general.
- Ruido de Poisson: También llamado ruido de disparo, este tipo de ruido se produce en condiciones de poca luz o con tiempos de exposición cortos. Su varianza aumenta con el brillo, pero el ruido suele ser más notable en las regiones más oscuras porque se capturan menos fotones, lo que da lugar a una menor relación señal-ruido.
- Ruido de sal y pimienta: Este tipo de ruido aparece como picos de píxeles negros o blancos nítidos. Suele estar causado por errores de transmisión, corrupción de bits o sensores de cámara defectuosos, y a menudo da lugar a valores de píxeles faltantes o corruptos.
- Ruido de moteado: Este tipo de ruido aparece como patrones granulares en forma de puntos y es común en imágenes médicas, de radar y de ultrasonido. Está causado por la interferencia y dispersión de la señal, lo que reduce el contraste y hace que los bordes sean más difíciles de detectar.
Link to this section¿Cuándo deberías usar la reducción de ruido autosupervisada?#
Entonces, ¿qué hace especial a la reducción de ruido autosupervisada? Destaca en situaciones en las que las imágenes limpias y de verdad fundamental (ground-truth) simplemente no existen o son demasiado difíciles de capturar.
Esto ocurre a menudo en fotografía con poca luz, imágenes de alta sensibilidad ISO, imágenes médicas y científicas, o cualquier entorno donde el ruido es inevitable y recopilar datos de referencia perfectos no es realista. En lugar de necesitar ejemplos limpios, el modelo aprende directamente de las imágenes ruidosas que ya tienes, haciéndolo adaptable a los patrones de ruido específicos de tu cámara o sensor.
La reducción de ruido autosupervisada también es una gran opción cuando quieres aumentar el rendimiento de las tareas de visión artificial posteriores, pero tu conjunto de datos está lleno de imágenes inconsistentes o ruidosas. Al recuperar bordes, texturas y estructuras más claras, estos métodos ayudan a modelos como YOLO a detectar, segmentar y entender escenas de forma más fiable. En resumen, si trabajas con datos ruidosos y no dispones de imágenes de entrenamiento limpias, la reducción de ruido autosupervisada a menudo ofrece la solución más práctica y eficaz.
Link to this sectionLas técnicas principales que impulsan la reducción de ruido autosupervisada#
Como hemos visto anteriormente, la reducción de ruido autosupervisada es un enfoque de IA basado en el aprendizaje profundo que permite a los modelos aprender directamente de imágenes ruidosas sin depender de etiquetas limpias. Se basa en los principios del aprendizaje autosupervisado, donde los modelos generan sus propias señales de entrenamiento a partir de los datos mismos.
En otras palabras, un modelo puede enseñarse a sí mismo utilizando imágenes ruidosas tanto como entrada como fuente de su señal de aprendizaje. Al comparar diferentes versiones corrompidas de la misma imagen o predecir píxeles enmascarados, el modelo aprende qué patrones representan una estructura real y cuáles son solo ruido. A través de la optimización iterativa y el reconocimiento de patrones, la red mejora gradualmente su capacidad para distinguir el contenido de imagen significativo de la variación aleatoria.

Fig 2. Una imagen sin procesar y una imagen con reducción de ruido. (Fuente)
Esto es posible gracias a estrategias de aprendizaje específicas que guían al modelo para separar la estructura estable de la imagen del ruido aleatorio. A continuación, echemos un vistazo más de cerca a las técnicas y algoritmos fundamentales que simplifican este proceso y cómo cada enfoque ayuda a los modelos a reconstruir imágenes más limpias y fiables.
Link to this sectionMétodos de reducción de ruido de imagen por pares#
Muchos de los primeros métodos de aprendizaje autosupervisado para la reducción de ruido funcionaban comparando dos versiones ruidosas de la misma imagen. Dado que el ruido cambia aleatoriamente cada vez que se captura o corrompe una imagen, pero la estructura real permanece igual, estas diferencias pueden utilizarse como señal de aprendizaje para un modelo.
Estos enfoques se conocen comúnmente como métodos de reducción de ruido de imagen por pares porque se basan en el uso o la generación de pares de imágenes ruidosas durante el entrenamiento. Por ejemplo, el enfoque Noise2Noise (propuesto por Jaakko Lehtinen y su equipo) entrena a un modelo utilizando dos imágenes ruidosas independientes de la misma escena. Dado que los patrones de ruido difieren entre las dos versiones, el modelo aprende a identificar los detalles consistentes que representan la imagen subyacente real.

Fig 3. Cómo funciona Noise2Noise (Fuente)
Con el tiempo, esto enseña a la red a suprimir el ruido aleatorio y preservar la estructura real, aunque nunca vea una imagen de referencia limpia. Considera un escenario sencillo en el que tomas dos fotos de una calle con poca luz por la noche.
Cada imagen contiene los mismos edificios, luces y sombras, pero el ruido granulado aparece en diferentes lugares. Al comparar estas dos fotos ruidosas durante el entrenamiento, un modelo autosupervisado puede aprender qué patrones visuales son estables y cuáles están causados por el ruido, mejorando en última instancia su capacidad para reconstruir imágenes más limpias.
Link to this sectionMétodos de aprendizaje autosupervisado basados en puntos ciegos para la reducción de ruido#
Mientras que los métodos por pares se basan en la comparación de dos versiones de la misma imagen corrompidas de forma diferente, los métodos de puntos ciegos adoptan un enfoque distinto. Permiten que un modelo aprenda a partir de una única imagen ruidosa ocultando píxeles seleccionados para que la red no pueda ver sus valores corrompidos.
El modelo debe entonces predecir los píxeles ocultos utilizando únicamente el contexto circundante. La idea central es que el ruido es aleatorio, pero la estructura subyacente de una imagen no lo es.
Al evitar que el modelo copie el valor ruidoso de un píxel, los métodos de puntos ciegos le animan a deducir cuál debería ser ese píxel basándose en patrones de imagen estables como bordes, texturas o degradados de color cercanos. Técnicas como Noise2Void (introducida por Alexander Krull y su equipo) y Noise2Self (desarrollada por Joshua Batson y Loïc Royer) implementan este principio enmascarando píxeles individuales o pequeñas vecindades y entrenando al modelo para reconstruirlos.
Enfoques más avanzados, incluidos Noise2Same y PN2V, mejoran la robustez al imponer predicciones consistentes en múltiples versiones enmascaradas o modelando explícitamente la distribución del ruido para estimar la incertidumbre. Dado que estos métodos requieren solo una única imagen ruidosa, son especialmente útiles en ámbitos donde capturar imágenes limpias o por pares es poco práctico o imposible, como microscopía, astronomía, imágenes biomédicas o fotografía con poca luz.
Link to this sectionMétodos de reducción de ruido respaldados por Transformer#
La mayoría de los métodos de reducción de ruido autosupervisados por pares y de puntos ciegos se basan en redes neuronales convolucionales (CNN) o redes de reducción de ruido. Las CNN son una gran opción para estos enfoques porque se centran en patrones locales, es decir, bordes, texturas y pequeños detalles.
Arquitecturas como U-Net se utilizan ampliamente ya que combinan características de grano fino con información a multiescala. Sin embargo, las CNN operan principalmente dentro de vecindades limitadas, lo que significa que pueden perder relaciones importantes que abarcan regiones más grandes de una imagen.
Se introdujeron métodos de reducción de ruido de vanguardia respaldados por Transformer para abordar esta limitación. En lugar de mirar solo los píxeles cercanos, el método propuesto utiliza mecanismos de atención para entender cómo se relacionan entre sí las diferentes partes de una imagen.
Algunos modelos utilizan atención global completa, mientras que otros utilizan atención jerárquica o basada en ventanas para reducir el cálculo, pero en general, están diseñados para capturar estructuras de largo alcance que las CNN por sí solas no pueden. Esta vista más amplia ayuda al modelo a restaurar texturas repetitivas, superficies lisas u objetos grandes que requieren información de toda la imagen.
Link to this sectionOtros métodos de reducción de ruido de imagen#
Aparte de las técnicas autosupervisadas, existen también otras formas de limpiar imágenes ruidosas. Los métodos tradicionales, como el filtrado bilateral, la reducción de ruido por wavelets y los medios no locales, utilizan reglas matemáticas simples para suavizar el ruido mientras intentan mantener los detalles importantes.
Mientras tanto, también existen enfoques de aprendizaje profundo, incluidos modelos supervisados que aprenden de pares de imágenes limpias-ruidosas y redes generativas antagónicas (GAN) que generan resultados más nítidos y realistas. Sin embargo, estos métodos suelen requerir una mejor calidad de imagen para el entrenamiento.
Link to this sectionUna mirada paso a paso a cómo funciona la reducción de ruido de imagen autosupervisada#
Dado que acabamos de recorrer varias técnicas diferentes, es posible que te preguntes si cada una funciona de una manera completamente diferente, dado que utilizan sus propias arquitecturas. Sin embargo, todas siguen un proceso similar que comienza con la preparación de datos y termina con la evaluación del modelo.
A continuación, echemos un vistazo más de cerca a cómo funciona el proceso general de imagen con reducción de ruido autosupervisada paso a paso.
Link to this sectionPaso 1: Preprocesamiento y normalización#
Antes de que el modelo pueda empezar a aprender de imágenes ruidosas, el primer paso es asegurarse de que todas las imágenes parezcan consistentes. Las fotos reales pueden variar mucho.
Algunas imágenes pueden ser demasiado brillantes, otras demasiado oscuras y algunas pueden tener colores ligeramente desviados. Si introducimos estas variaciones directamente en un modelo, se vuelve más difícil para él concentrarse en aprender cómo se ve el ruido.
Para manejar esto, cada imagen pasa por normalización y preprocesamiento básico. Esto podría incluir escalar los valores de píxel a un rango estándar, corregir variaciones de intensidad o recortar y redimensionar. La clave es que el modelo reciba datos limpios que puedan utilizarse como entradas estables y comparables.
Link to this sectionPaso 2: Creación de una señal de entrenamiento autosupervisada#
Una vez que las imágenes han sido normalizadas, el siguiente paso es crear una señal de entrenamiento que permita al modelo aprender sin ver nunca una imagen limpia. Los métodos de reducción de ruido autosupervisada hacen esto asegurándose de que el modelo no pueda simplemente copiar los valores de píxeles ruidosos que recibe.
En cambio, crean situaciones en las que el modelo debe confiar en el contexto circundante de la imagen, que contiene una estructura estable, en lugar del ruido impredecible. Diferentes métodos logran esto de formas ligeramente diferentes, pero la idea central es la misma.
Algunos enfoques ocultan o enmascaran temporalmente ciertos píxeles para que el modelo tenga que deducirlos de sus vecinos, mientras que otros generan una versión corrompida por separado de la misma imagen ruidosa para que la entrada y el objetivo contengan ruido independiente. En ambos casos, la imagen objetivo contiene información estructural significativa, pero impide que la red acceda al valor ruidoso original del píxel que se supone debe predecir.
Debido a que el ruido cambia aleatoriamente mientras la imagen subyacente permanece consistente, esta configuración anima naturalmente al modelo a aprender cómo se ve la estructura real e ignorar el ruido que varía de una versión a otra.
Link to this sectionPaso 3: Aprender la reducción de ruido para recuperar la estructura de la imagen#
Con la señal de entrenamiento en su lugar, el modelo puede comenzar a aprender cómo separar la estructura de la imagen significativa del ruido a través del entrenamiento del modelo. Cada vez que predice un píxel enmascarado o recorrompido, debe confiar en el contexto circundante en lugar del valor ruidoso que ocupaba originalmente ese lugar.
A lo largo de muchas iteraciones o épocas, esto enseña a la red a reconocer los tipos de patrones que permanecen estables a través de una imagen, como bordes, texturas y superficies lisas. También aprende a ignorar las fluctuaciones aleatorias que caracterizan al ruido.
Por ejemplo, considera una foto con poca luz donde una superficie parece extremadamente granulada. Aunque el ruido varía de píxel a píxel, la superficie subyacente sigue siendo lisa. Al inferir repetidamente los píxeles ocultos en tales regiones, el modelo mejora gradualmente en la identificación del patrón estable debajo del ruido y en su reconstrucción de forma más limpia.
A través del proceso de entrenamiento del modelo, la red aprende una representación interna de la estructura de la imagen. Esto permite al modelo recuperar detalles coherentes incluso cuando la entrada está muy corrompida.
Link to this sectionPaso 4: Validación y resultados de reducción de ruido#
Después de que el modelo haya aprendido a predecir píxeles ocultos o recorrompidos, el último paso es evaluar qué tan bien funciona en imágenes completas. Durante las pruebas, el modelo recibe una imagen ruidosa completa y produce una versión completa con reducción de ruido basada en lo que aprendió sobre la estructura de la imagen. Para medir la eficacia de este proceso, la salida se compara con imágenes de referencia limpias o conjuntos de datos de referencia estándar.
Dos métricas comúnmente utilizadas son PSNR (relación señal-ruido pico), que mide qué tan cerca está la reconstrucción de la verdad fundamental limpia, y SSIM (índice de similitud estructural), que evalúa qué tan bien se conservan las características importantes como los bordes y las texturas. Las puntuaciones más altas generalmente indican una reducción de ruido más precisa y visualmente fiable.
Link to this sectionConjuntos de datos de imágenes utilizados para entrenamiento y evaluación comparativa#
La investigación sobre la reducción de ruido autosupervisada, que aparece en revistas del IEEE y conferencias de la CVF, entre otras, CVPR, ICCV y ECCV, así como ampliamente distribuida en arXiv, se basa a menudo en una combinación de conjuntos de datos sintéticos y del mundo real para evaluar el rendimiento de los modelos de aprendizaje profundo en condiciones controladas y prácticas. Por un lado, los conjuntos de datos sintéticos comienzan con imágenes limpias y añaden ruido artificial, lo que facilita la comparación de métodos utilizando métricas como PSNR y SSIM.
Estos son algunos de los conjuntos de datos populares que se utilizan habitualmente con ruido sintético añadido para la evaluación comparativa:
- Kodak24: Este conjunto de datos proporciona fotografías de escenas naturales de alta calidad que se utilizan habitualmente para comparar visualmente los resultados de la reducción de ruido.
- DIV2K: Este conjunto de datos de alta resolución contiene imágenes diversas y detalladas que se utilizan para evaluar la fidelidad de la textura y la calidad general de la restauración.
Los conjuntos de datos ruidosos del mundo real, por otro lado, contienen imágenes capturadas directamente desde sensores de cámara con poca luz, ISO alto u otras condiciones difíciles. Estos conjuntos de datos prueban si un modelo puede manejar ruido complejo y no gaussiano que no puede simularse fácilmente.
Estos son algunos de los conjuntos de datos ruidosos del mundo real más populares:
- SIDD: Este conjunto de datos proporciona pares de imágenes reales ruidosas y limpias capturadas con sensores de teléfonos inteligentes en una variedad de entornos de iluminación.
- DND: Incluye fotografías de alto ISO que capturan patrones de ruido de sensor realistas encontrados en cámaras de consumo.

Fig 4. Un ejemplo del conjunto de datos DND. (Fuente)
Link to this sectionFactores a tener en cuenta al entrenar un modelo de reducción de ruido autosupervisado#
Aquí hay algunos factores y limitaciones a considerar si vas a entrenar un modelo de reducción de ruido autosupervisado basado en aprendizaje profundo:
- Coincide con la distribución del ruido: Las imágenes ruidosas utilizadas para el entrenamiento deben reflejar el mismo ruido que encontrará el modelo en el uso real; el ruido que no coincide conduce a una mala generalización.
- Asegura la diversidad de datos de entrenamiento: La variación limitada puede causar sobreajuste o suavizado excesivo en texturas complejas.
- Ten en cuenta las limitaciones del tipo de ruido: Los métodos autosupervisados tienen más dificultades con el ruido estructurado, correlacionado o no aleatorio.
- Prueba en todos los dispositivos o sensores: El rendimiento de la reducción de ruido puede variar mucho entre cámaras o sistemas de imágenes.
Link to this sectionConclusiones clave#
La reducción de ruido autosupervisada ofrece a los entusiastas de la IA una forma práctica de limpiar imágenes utilizando solo los datos ruidosos que ya tenemos. Al aprender a reconocer la estructura real debajo del ruido, estos métodos pueden recuperar detalles visuales importantes. A medida que la tecnología de reducción de ruido continúe mejorando, es probable que haga que una amplia gama de tareas de visión artificial sea más fiable en entornos cotidianos.
¡Forma parte de nuestra creciente comunidad! Explora nuestro repositorio de GitHub para aprender más sobre IA. Si buscas crear soluciones de visión artificial, echa un vistazo a nuestras opciones de licencia. ¡Explora los beneficios de la visión artificial en el comercio minorista y mira cómo la IA en la fabricación está marcando la diferencia!






