Al hacer clic en “Aceptar todas las cookies”, aceptas el almacenamiento de cookies en tu dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información
Configuración de cookies
Al hacer clic en “Aceptar todas las cookies”, aceptas el almacenamiento de cookies en tu dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información
Descubra cómo el aprendizaje autosupervisado elimina el ruido de las imágenes y mejora su nitidez mediante técnicas de IA para fotografía, medicina y sistemas de visión.
Las imágenes forman parte de nuestra vida cotidiana, desde las fotos que hacemos hasta los vídeos grabados por cámaras en lugares públicos. Contienen información muy valiosa, y la tecnología punta permite analizar e interpretar estos datos.
En concreto, la visión por ordenador, una rama de la inteligencia artificial (IA), permite a las máquinas procesar la información visual y comprender lo que ven, de forma muy parecida a como lo hacen los humanos. Sin embargo, en las aplicaciones del mundo real, las imágenes distan mucho de ser perfectas.
El ruido de las imágenes causado por la lluvia, el polvo, la poca luz o las limitaciones del sensor puede ocultar detalles importantes, lo que dificulta a los modelos de Vision AI la detección de objetos o la interpretación precisa de las escenas. La eliminación del ruido de las imágenes ayuda a reducirlo, lo que permite a los modelos de Vision AI ver los detalles con más claridad y hacer mejores predicciones.
Fig. 1. Ejemplo de eliminación de ruido de una imagen.(Fuente)
Tradicionalmente, la eliminación del ruido de las imágenes se ha basado en el aprendizaje supervisado, en el que los modelos se entrenan utilizando pares de imágenes limpias y ruidosas para aprender a eliminar el ruido. Sin embargo, recopilar imágenes de referencia perfectamente limpias no siempre es práctico.
Para hacer frente a este reto, los investigadores han desarrollado eliminadores de ruido de imágenes autosupervisados. Su objetivo es entrenar modelos de IA para que aprendan directamente de los datos, creando sus propias señales de aprendizaje para eliminar el ruido y conservar los detalles importantes sin necesidad de imágenes de referencia limpias.
En este artículo analizaremos los desenotificadores de imágenes autosupervisados, su funcionamiento, las técnicas clave que los sustentan y sus aplicaciones en el mundo real. Comencemos.
¿Qué es la eliminación de ruido de imágenes autosupervisada?
Las imágenes ruidosas pueden dificultar a los modelos de Vision AI la interpretación de lo que hay en una foto. Una foto tomada en condiciones de poca luz, por ejemplo, puede aparecer granulada o borrosa, ocultando características sutiles que ayudan a un modelo a identificar objetos con precisión.
En la eliminación de ruido basada en el aprendizaje supervisado, los modelos se entrenan utilizando pares de imágenes, una con ruido y otra limpia, para aprender a eliminar el ruido no deseado. Aunque este método funciona bien, recopilar datos de referencia perfectamente limpios suele llevar mucho tiempo y es difícil en el mundo real.
Por eso los investigadores han recurrido a la eliminación de ruido de imágenes con autosupervisión. La eliminación de ruido de imágenes autosupervisada se basa en el concepto de aprendizaje autosupervisado, en el que los modelos se enseñan a sí mismos creando sus propias señales de aprendizaje a partir de los datos.
Como este método no depende de grandes conjuntos de datos etiquetados, la eliminación de ruido autosupervisada es más rápida, más escalable y más fácil de aplicar en ámbitos como la fotografía con poca luz, las imágenes médicas y el análisis de imágenes de satélite, donde a menudo no se dispone de imágenes de referencia limpias.
En lugar de basarse en imágenes de referencia limpias, este enfoque se entrena directamente en datos ruidosos mediante la predicción de píxeles enmascarados o la reconstrucción de partes perdidas. De este modo, el modelo aprende a distinguir entre los detalles significativos de la imagen y el ruido aleatorio, lo que se traduce en resultados más claros y precisos.
Aunque pueda parecer similar al aprendizaje no supervisado, el aprendizaje autosupervisado es en realidad un caso especial de éste. La distinción clave es que en el aprendizaje autosupervisado, el modelo crea sus propias etiquetas o señales de entrenamiento a partir de los datos para aprender una tarea específica. En cambio, el aprendizaje no supervisado se centra en encontrar patrones o estructuras ocultas en los datos sin ninguna tarea explícita ni objetivo predefinido.
Estrategias de aprendizaje en la eliminación de ruido autosupervisada
Con respecto a la eliminación de ruido autosupervisada, hay varias formas de aprendizaje. Algunos modelos de eliminación de ruido con autosupervisión rellenan los píxeles enmascarados o que faltan, mientras que otros comparan varias versiones ruidosas de la misma imagen para encontrar detalles coherentes.
Por ejemplo, un método popular conocido como aprendizaje de puntos ciegos se centra en entrenar el modelo de eliminación de ruido para que ignore el píxel que está reconstruyendo y se base en el contexto circundante. Con el tiempo, el modelo reconstruye imágenes de alta calidad conservando texturas, bordes y colores esenciales.
Cómo funciona el aprendizaje autosupervisado para eliminar el ruido
A continuación, exploraremos el proceso por el que el aprendizaje autosupervisado elimina el ruido.
El proceso de eliminación de ruido autosupervisado suele comenzar con la introducción de imágenes ruidosas en el modelo de eliminación de ruido. El modelo analiza los píxeles cercanos para estimar qué aspecto debería tener cada píxel poco claro o enmascarado, aprendiendo gradualmente a distinguir entre el ruido y los detalles visuales reales.
Consideremos una imagen de un cielo oscuro y granulado. El modelo observa las estrellas cercanas y los patrones circundantes para predecir el aspecto que debería tener cada zona ruidosa sin ruido. Al repetir este proceso en toda la imagen, aprende a separar el ruido aleatorio de las características significativas, produciendo un resultado más claro y preciso.
En otras palabras, el modelo predice una versión más limpia de la imagen basándose en el contexto, sin necesitar nunca una referencia perfectamente limpia. Este proceso puede llevarse a cabo utilizando distintos tipos de modelos, cada uno de ellos con sus propios puntos fuertes a la hora de tratar el ruido.
Tipos de modelos utilizados para la reducción autosupervisada del ruido de las imágenes
A continuación se describen los tipos de modelos utilizados habitualmente para la eliminación de ruido de imágenes con autosupervisión:
Redes neuronales convolucionales (CNN): Las CNN son modelos de aprendizaje profundo diseñados para reconocer patrones en pequeñas regiones de una imagen. Escanean imágenes utilizando filtros para detectar bordes, formas y texturas. En la eliminación de ruido autosupervisada, suelen utilizar técnicas de punto ciego, en las que el píxel objetivo se excluye de la entrada para que el modelo prediga su valor basándose únicamente en los píxeles circundantes. Esto ayuda al modelo a evitar copiar el ruido y, en su lugar, infiere detalles más limpios.
Autocodificadores: Los autocodificadores son redes neuronales que aprenden a comprimir y reconstruir datos. Primero reducen una imagen a una representación más pequeña (codificación) y luego la reconstruyen (descodificación). En el proceso, aprenden a captar características visuales importantes, como formas y texturas, al tiempo que filtran el ruido aleatorio y los detalles irrelevantes.
Modelos basados en transformadores: Los transformadores son modelos desarrollados originalmente para el procesamiento del lenguaje natural, pero que ahora se utilizan ampliamente en tareas de visión. Procesan toda la imagen a la vez, aprendiendo cómo se relacionan entre sí las distintas regiones. Esta perspectiva global les permite preservar los detalles finos y la coherencia estructural, incluso en imágenes complejas o de alta resolución.
Fig. 2. Arquitectura basada en CNN para la eliminación de ruido de imágenes con autosupervisión.(Fuente)
El entrenamiento de estos modelos con imágenes tomadas con distintas iluminaciones y ajustes ISO les ayuda a funcionar bien en muchas situaciones del mundo real. En las cámaras digitales, los ajustes ISO controlan cuánto ilumina la cámara la imagen amplificando la señal que recibe.
Un ISO más alto hace que las fotos sean más brillantes en los lugares oscuros, pero también aumenta el ruido y reduce los detalles. Al aprender de las imágenes tomadas con distintos niveles de ISO, los modelos consiguen distinguir mejor los detalles reales del ruido, lo que permite obtener resultados más claros y precisos.
¿Cómo aprende un denoiser lo que es ruido y lo que es real?
Los denoisers aprenden a distinguir el ruido de los detalles reales de la imagen mediante distintas técnicas de entrenamiento, que son independientes de los tipos de modelos utilizados para el denoising. Los tipos de modelos como CNN, autocodificadores y transformadores describen la estructura de la red y cómo procesa la información visual.
Las técnicas de entrenamiento, por su parte, definen cómo aprende el modelo. Algunos métodos utilizan la predicción basada en el contexto, en la que el modelo rellena los píxeles ausentes o enmascarados utilizando información de las zonas cercanas.
Otros utilizan el aprendizaje basado en la reconstrucción, en el que el modelo comprime una imagen en una forma más simple y luego la reconstruye, lo que le ayuda a reconocer estructuras significativas, como bordes y texturas, al tiempo que filtra el ruido aleatorio.
Juntos, el tipo de modelo y la técnica de entrenamiento determinan la eficacia con la que un eliminador de ruido puede limpiar las imágenes. Combinando la arquitectura adecuada con el método de aprendizaje correcto, los desenotificadores autosupervisados pueden adaptarse a muchos tipos de ruido y producir imágenes más claras y precisas incluso sin datos de referencia limpios.
Técnicas clave en la eliminación de ruido de imágenes con IA autosupervisada
A continuación se presentan algunas de las técnicas de entrenamiento más utilizadas que permiten una eficaz eliminación de ruido de imágenes autosupervisada:
Ruido2Ruido: Este método entrena un modelo utilizando dos versiones ruidosas de la misma imagen. Como el ruido en cada versión es aleatorio, el modelo aprende a centrarse en los detalles consistentes que representan la imagen real y a ignorar el ruido. Funciona mejor cuando se dispone de varias capturas ruidosas de la misma escena, como en la fotografía de ráfaga o en la obtención de imágenes médicas y científicas.
Noise2Void o Noise2Self: Estas técnicas se entrenan con una sola imagen ruidosa ocultando (enmascarando) un píxel y pidiendo al modelo que prediga su valor basándose en los píxeles circundantes. Así se evita que el modelo se limite a copiar datos ruidosos y se le ayuda a aprender la estructura natural de las imágenes. Son especialmente útiles cuando sólo se dispone de una imagen ruidosa, como en microscopía, astronomía o fotografía con poca luz.
Redes de puntos ciegos: Están especialmente diseñadas para que el modelo no pueda ver el píxel que está reconstruyendo. En su lugar, se basa en la información del área circundante para estimar el aspecto que debería tener ese píxel. Esto hace que la eliminación del ruido sea más precisa e imparcial, y a menudo se combinan con los métodos Noise2Void o Noise2Self en tareas de eliminación de ruido por píxel.
Autoencodificadores enmascarados (MAE): En este enfoque, se ocultan partes de una imagen y el modelo aprende a reconstruir las zonas que faltan. De este modo, aprende tanto los detalles finos como la estructura general, lo que le ayuda a distinguir el contenido real del ruido. Los autocodificadores enmascarados son especialmente eficaces para imágenes complejas o de alta resolución en las que la comprensión del contexto general mejora la restauración.
Evaluación de los sistemas de eliminación de ruido de imágenes
La eliminación de ruido de las imágenes es un cuidadoso equilibrio entre dos objetivos: reducir el ruido y mantener intactos los detalles. Un exceso de eliminación de ruido puede hacer que una imagen parezca borrosa o poco nítida, mientras que un defecto puede dejar grano o artefactos no deseados.
Para entender hasta qué punto un modelo consigue este equilibrio, los investigadores utilizan métricas de evaluación que miden tanto la claridad de la imagen como la conservación de los detalles. Estas métricas muestran lo bien que un modelo limpia una imagen sin perder información visual importante.
A continuación se describen las métricas de evaluación más comunes que ayudan a medir la calidad de la imagen y el rendimiento de la eliminación de ruido:
Error cuadrático medio (MSE): Mide la diferencia cuadrática media entre la imagen original y la desprotegida. Destaca lo cerca que está el resultado del original a nivel de píxel. Valores de MSE más bajos significan menos errores y un resultado más preciso.
Relación señal/ruido máxima (PSNR): esta métrica compara la intensidad de la señal de la imagen original con el ruido restante, expresada en decibelios. Se utiliza para ver en qué medida se han conservado los detalles originales tras la eliminación de ruido. Los valores más altos de PSNR significan imágenes más claras y de mayor calidad.
Medida del índice de similitud estructural (SSIM): El SSIM evalúa la estructura, el brillo y el contraste para determinar la similitud entre la imagen desprotegida y la original. Se centra en cómo ven las personas las imágenes, no sólo en los números en bruto. Las puntuaciones SSIM más altas significan que la imagen parece más natural y fiel al original.
Métricas perceptivas: Estas métricas utilizan modelos de aprendizaje profundo para juzgar lo realista y natural que parece una imagen. En lugar de comparar píxeles individuales, se centran en el aspecto general, la textura y la similitud visual. En la mayoría de los casos, las puntuaciones más bajas significan que la imagen se parece más al original y es más agradable visualmente para los humanos.
Aplicaciones de la eliminación de ruido autosupervisada
Ahora que entendemos mejor qué es la eliminación de ruido, vamos a estudiar cómo se aplica la eliminación de ruido de imágenes autosupervisada en situaciones reales.
Uso de la eliminación de ruido autosupervisada en astrofotografía
Hacer fotos nítidas de estrellas y galaxias no es fácil. El cielo nocturno es oscuro, por lo que las cámaras suelen requerir largos tiempos de exposición, lo que puede introducir ruido no deseado. Este ruido puede difuminar los detalles cósmicos y dificultar la detección de señales débiles.
Las herramientas tradicionales de eliminación de ruido pueden ayudar a reducirlo, pero a menudo eliminan detalles importantes. La eliminación de ruido autosupervisada ofrece una alternativa más inteligente. Al aprender directamente de las imágenes ruidosas, el modelo de IA puede reconocer patrones que representan características reales y separarlas del ruido aleatorio.
El resultado son imágenes mucho más nítidas de objetos celestes como estrellas, galaxias y el Sol, que revelan detalles tenues que de otro modo podrían pasar desapercibidos. También puede realzar características astronómicas sutiles, mejorando la claridad de la imagen y haciendo que los datos sean más útiles para la investigación científica.
Fig. 3. La eliminación de ruido de la imagen puede mejorar las imágenes astrofotográficas.(Fuente)
Eliminación de ruido autosupervisada para imágenes médicas
Los escáneres médicos, como las resonancias magnéticas, las tomografías computarizadas y las imágenes de microscopía, suelen captar ruido que puede dificultar la visualización de pequeños detalles. Esto puede ser un problema cuando los médicos necesitan detectar los primeros signos de una enfermedad o hacer un seguimiento de los cambios a lo largo del tiempo.
El ruido de las imágenes puede deberse al movimiento del paciente, a la baja intensidad de la señal o a los límites de la radiación que puede utilizarse. Para que las exploraciones médicas sean más nítidas, los investigadores han explorado métodos de eliminación de ruido autosupervisados como Noise2Self y otros similares.
Estos modelos se entrenan directamente con imágenes de resonancia magnética cerebral ruidosas, aprendiendo los patrones de ruido por sí solos y limpiándolos sin necesidad de ejemplos perfectamente nítidos. Las imágenes procesadas mostraban texturas más nítidas y mejor contraste, lo que facilitaba la identificación de estructuras finas. Estos eliminadores de ruido basados en IA agilizan el flujo de trabajo en el diagnóstico por imagen y mejoran la eficacia del análisis en tiempo real.
Fig. 4. Utilización de diferentes técnicas de eliminación de ruido autosupervisadas en exploraciones de IRM cerebral.(Fuente)
Mejora de los sistemas de visión con eliminación de ruido autosupervisada
En la mayoría de los casos, la eliminación de ruido tiene un impacto significativo en una amplia gama de aplicaciones de visión por ordenador. Al eliminar el ruido y las distorsiones no deseados, produce datos de entrada más limpios y coherentes para que los procesen los modelos de IA de visión.
Unas imágenes más nítidas mejoran el rendimiento en tareas de visión por ordenador como la detección de objetos, la segmentación de instancias y el reconocimiento de imágenes. Estos son algunos ejemplos de aplicaciones en las que los modelos de Vision AI, como UltralyticsYOLO11 y Ultralytics YOLO26, pueden beneficiarse de la eliminación de ruido:
Inspección industrial: La eliminación de ruido permite detectar con mayor precisión defectos superficiales o anomalías en entornos de fabricación, lo que mejora el control de calidad.
Conducción y navegación autónomas: Mejora la detección de objetos y obstáculos en condiciones difíciles como poca luz, lluvia o niebla, mejorando la seguridad y fiabilidad generales.
Vigilancia y seguridad: La eliminación de ruido mejora la calidad de la imagen en condiciones de poca luz o de alta compresión, lo que permite una mejor identificación y seguimiento de objetos o personas.
Imágenes submarinas: La eliminación de ruido reduce la dispersión y la distorsión de la luz, lo que mejora la visibilidad y el reconocimiento de objetos en condiciones submarinas turbias.
Ventajas e inconvenientes de la eliminación de ruido autosupervisada
Estas son algunas de las principales ventajas de la eliminación de ruido autosupervisada en los sistemas de imágenes:
Adaptabilidad al ruido: Los métodos de eliminación de ruido autosupervisados pueden aprender directamente de datos ruidosos sin necesidad de referencias limpias emparejadas. Esto los hace muy adaptables a una amplia gama de niveles y tipos de ruido del mundo real, como el ruido de los sensores, el desenfoque por movimiento o las interferencias ambientales.
Preservación de los detalles: Cuando están bien diseñados, estos modelos preservan las texturas finas y los bordes que son esenciales para una interpretación precisa de la imagen. Enfoques como las redes de puntos ciegos y el aprendizaje basado en el enmascaramiento ayudan a mantener la información estructural al tiempo que reducen el ruido.
Menos preprocesamiento: Al aprender a asignar entradas ruidosas a representaciones limpias utilizando sólo los datos disponibles, el modelo minimiza la necesidad de filtrado manual, algoritmos de eliminación de ruido artesanales o conjuntos de datos de entrenamiento curados.
A pesar de sus ventajas, la eliminación de ruido autosupervisada tiene ciertas limitaciones. He aquí algunos factores a tener en cuenta:
Requisitos computacionales: Las arquitecturas neuronales profundas utilizadas para la eliminación de ruido autosupervisada, especialmente los modelos basados en transformadores, pueden requerir una potencia computacional y unos recursos de memoria considerables en comparación con las técnicas de filtrado tradicionales.
Complejidad del diseño del modelo: Conseguir resultados óptimos requiere una cuidadosa selección de los ajustes del modelo, como la estrategia de enmascaramiento y la función de pérdida, que pueden variar según los distintos tipos de ruido.
Retos de la evaluación: Las métricas habituales de calidad de imagen no siempre coinciden con el aspecto natural o realista de una imagen desprotegida, por lo que a menudo se necesitan comprobaciones visuales o específicas de la tarea.
Conclusiones clave
La eliminación de ruido autosupervisada ayuda a los modelos de IA a aprender directamente de las imágenes con ruido, produciendo resultados más nítidos y conservando los detalles. Funciona con eficacia en diversas situaciones difíciles, como imágenes con poca luz, ISO alta e imágenes detalladas. A medida que la IA siga evolucionando, es probable que estas técnicas desempeñen un papel esencial en diversas aplicaciones de visión por ordenador.