En cliquant sur « Accepter tous les cookies », vous acceptez le stockage de cookies sur votre appareil pour améliorer la navigation sur le site, analyser son utilisation et contribuer à nos efforts de marketing. Plus d’infos
Paramètres des cookies
En cliquant sur « Accepter tous les cookies », vous acceptez le stockage de cookies sur votre appareil pour améliorer la navigation sur le site, analyser son utilisation et contribuer à nos efforts de marketing. Plus d’infos
Découvrez comment fonctionne l'apprentissage auto-supervisé pour le débruitage, pourquoi les images sont bruitées, ainsi que les principales méthodes et étapes utilisées pour récupérer des détails visuels nets.
Les appareils photo ne capturent pas toujours le monde tel que nous le voyons. Un portrait pris dans des conditions de faible luminosité ou une photo d'une voiture roulant à grande vitesse peuvent apparaître granuleux, flous ou déformés.
Les capteurs lents, les environnements sombres et les mouvements peuvent introduire de minuscules grains de bruit qui adoucissent les contours et masquent des détails importants. Lorsque cette clarté est perdue, même les systèmes avancés d'IA et d'apprentissage automatique peuvent avoir du mal à comprendre le contenu d'une image, car de nombreux systèmes intelligents s'appuient sur ces détails fins pour fonctionner correctement.
Par exemple, la vision par ordinateur est une branche de l'intelligence artificielle qui permet aux machines d'interpréter des images et des vidéos. Mais pour y parvenir avec précision, les modèles d'IA de vision ont besoin de données visuelles propres et de haute qualité pour apprendre.
Plus précisément, des modèles tels que Ultralytics YOLO11 et le prochain Ultralytics prennent en charge des tâches telles que la détection d'objets, la segmentation d'instances et l'estimation de poses, et peuvent être personnalisés pour différents cas d'utilisation. Ces tâches s'appuient sur des repères visuels clairs tels que les contours, les textures, les couleurs et les détails structurels fins.
Lorsque le bruit masque ces caractéristiques, le modèle reçoit des signaux d'apprentissage plus faibles, ce qui rend plus difficile l'apprentissage de modèles précis. Par conséquent, même de faibles niveaux de bruit peuvent réduire les performances dans les applications réelles.
Nous avons précédemment examiné comment l'apprentissage auto-supervisé permet de débruiter les images. Dans cet article, nous allons approfondir le fonctionnement des techniques de débruitage auto-supervisées et leur rôle dans la récupération d'informations visuelles significatives. C'est parti !
Types courants de bruit dans les images réelles
Avant d'explorer comment l'apprentissage auto-supervisé est utilisé dans le débruitage d'images, revenons d'abord sur les raisons pour lesquelles les images deviennent bruitées.
Les images d'objets et de scènes du monde réel sont rarement parfaites. Un éclairage faible, une qualité de capteur limitée et des mouvements rapides peuvent introduire des perturbations aléatoires dans les pixels individuels de l'image. Ces perturbations au niveau des pixels, appelées « bruit », réduisent la clarté globale et rendent les détails importants plus difficiles à voir.
Lorsque le bruit masque les contours, les textures et les motifs subtils, les systèmes de vision par ordinateur ont du mal à reconnaître les objets ou à interpréter les scènes avec précision. Différentes conditions produisent différents types de bruit, chacun affectant l'image à sa manière.
Fig. 1. Exemple illustrant comment le bruit peut accroître l'incertitude dans une image. (Source)
Voici quelques-uns des types de bruit les plus courants que l'on trouve dans les images :
Bruit gaussien : ce type de bruit se présente sous la forme d'un grain doux et aléatoire causé par des interférences électroniques du capteur ou des fluctuations thermiques. Il suit une distribution gaussienne (normale), où de petites variations de pixels brouillent les détails fins et réduisent la netteté globale.
Bruit de Poisson : également appelé bruit de grenaille, ce type de bruit se produit dans des conditions de faible luminosité ou avec des temps d'exposition courts. Sa variance augmente avec la luminosité, mais le bruit est souvent plus perceptible dans les zones plus sombres, car moins de photons sont capturés, ce qui se traduit par un rapport signal/bruit plus faible.
Bruit sel et poivre : ce type de bruit se présente sous la forme de pics de pixels noirs ou blancs très marqués. Il est généralement causé par des erreurs de transmission, une corruption des bits ou des capteurs de caméra défectueux, et entraîne souvent des valeurs de pixels manquantes ou corrompues.
Bruit de speckle : ce type de bruit se présente sous forme de motifs granuleux ressemblant à des taches et est courant dans l'imagerie médicale, radar et ultrasonore. Il est causé par des interférences et une diffusion du signal, ce qui réduit le contraste et rend les contours plus difficiles à detect.
Quand faut-il utiliser le débruitage auto-supervisé ?
Alors, qu'est-ce qui rend le débruitage auto-supervisé si spécial ? Il excelle dans les situations où il n'existe tout simplement pas d'images propres et fiables, ou bien où celles-ci sont trop difficiles à capturer.
Cela se produit souvent dans la photographie en basse lumière, l'imagerie à haute sensibilité ISO, l'imagerie médicale et scientifique, ou tout autre environnement où le bruit est inévitable et où il est irréaliste de collecter des données de référence parfaites. Au lieu d'avoir besoin d'exemples propres, le modèle apprend directement à partir des images bruitées dont vous disposez déjà, ce qui lui permet de s'adapter aux modèles de bruit spécifiques de votre appareil photo ou de votre capteur.
Le débruitage auto-supervisé est également une excellente option lorsque vous souhaitez améliorer les performances des tâches de vision par ordinateur en aval, mais que votre ensemble de données contient des images incohérentes ou bruitées. En récupérant des contours, des textures et des structures plus nets, ces méthodes aident les modèles tels que YOLO detect, segment et comprendre les scènes de manière plus fiable. En bref, si vous travaillez avec des données bruitées et que vous ne disposez pas d'images d'entraînement propres, le débruitage auto-supervisé offre souvent la solution la plus pratique et la plus efficace.
Les techniques fondamentales à la base du débruitage auto-supervisé
Comme nous l'avons vu précédemment, le débruitage auto-supervisé est une approche d'IA basée sur l'apprentissage profond qui permet aux modèles d'apprendre directement à partir d'images bruitées sans avoir recours à des étiquettes propres. Elle s'appuie sur les principes de l'apprentissage auto-supervisé, dans lequel les modèles génèrent leurs propres signaux d'entraînement à partir des données elles-mêmes.
En d'autres termes, un modèle peut s'auto-apprendre en utilisant des images bruitées à la fois comme entrée et comme source de son signal d'apprentissage. En comparant différentes versions corrompues d'une même image ou en prédisant les pixels masqués, le modèle apprend à distinguer les motifs qui représentent la structure réelle de ceux qui ne sont que du bruit. Grâce à une optimisation itérative et à la reconnaissance de motifs, le réseau améliore progressivement sa capacité à distinguer le contenu significatif d'une image des variations aléatoires.
Fig. 2. Une image brute et une image débruitée. (Source)
Cela est rendu possible grâce à des stratégies d'apprentissage spécifiques qui guident le modèle afin de séparer la structure stable de l'image du bruit aléatoire. Examinons maintenant de plus près les techniques et algorithmes fondamentaux qui rationalisent ce processus, ainsi que la manière dont chaque approche aide les modèles à reconstruire des images plus nettes et plus fiables.
Méthodes de débruitage d'images par paires
De nombreuses méthodes précoces d'apprentissage auto-supervisé pour le débruitage fonctionnaient en comparant deux versions bruitées d'une même image. Étant donné que le bruit change de manière aléatoire à chaque fois qu'une image est capturée ou corrompue, mais que la structure réelle reste la même, ces différences peuvent être utilisées comme signal d'apprentissage pour un modèle.
Ces approches sont communément appelées méthodes de débruitage d'images par paires, car elles reposent sur l'utilisation ou la génération de paires d'images bruitées pendant l'entraînement. Par exemple, l'approche Noise2Noise (proposée par Jaakko Lehtinen et son équipe) entraîne un modèle à l'aide de deux images indépendamment bruitées de la même scène. Étant donné que les modèles de bruit diffèrent entre les deux versions, le modèle apprend à identifier les détails cohérents qui représentent l'image sous-jacente réelle.
Au fil du temps, cela apprend au réseau à supprimer le bruit aléatoire et à préserver la structure réelle, même s'il ne voit jamais d'image de référence propre. Prenons un scénario simple où vous prenez deux photos d'une rue faiblement éclairée la nuit.
Chaque image contient les mêmes bâtiments, lumières et ombres, mais le bruit granuleux apparaît à différents endroits. En comparant ces deux photos bruitées pendant l'entraînement, un modèle auto-supervisé peut apprendre quels motifs visuels sont stables et lesquels sont causés par le bruit, améliorant ainsi sa capacité à reconstruire des images plus nettes.
Méthodes d'apprentissage auto-supervisé basées sur les angles morts pour le débruitage
Alors que les méthodes par paires reposent sur la comparaison de deux versions différentes et corrompues d'une même image, les méthodes par tache aveugle adoptent une approche différente. Elles permettent à un modèle d'apprendre à partir d'une seule image bruyante en masquant certains pixels afin que le réseau ne puisse pas voir leurs valeurs corrompues.
Le modèle doit ensuite prédire les pixels cachés en utilisant uniquement le contexte environnant. L'idée centrale est que le bruit est aléatoire, mais que la structure sous-jacente d'une image ne l'est pas.
En empêchant le modèle de copier la valeur bruyante d'un pixel, les méthodes de détection des angles morts l'encouragent à déduire ce que devrait être ce pixel en se basant sur des motifs d'image stables tels que les bords, les textures ou les dégradés de couleurs à proximité. Des techniques telles que Noise2Void (introduite par Alexander Krull et son équipe) et Noise2Self (développée par Joshua Batson et Loïc Royer) mettent en œuvre ce principe en masquant des pixels individuels ou de petits voisinages et en entraînant le modèle à les reconstruire.
Des approches plus avancées, telles que Noise2Same et PN2V, améliorent la robustesse en imposant des prédictions cohérentes sur plusieurs versions masquées ou en modélisant explicitement la distribution du bruit afin d'estimer l'incertitude. Comme ces méthodes ne nécessitent qu'une seule image bruyante, elles sont particulièrement utiles dans les domaines où la capture d'images nettes ou appariées est impraticable ou impossible, tels que la microscopie, l'astronomie, l'imagerie biomédicale ou la photographie en basse lumière.
Méthodes de débruitage assistées par transformateur
La plupart des méthodes de débruitage auto-supervisées par paires et par angle mort s'appuient sur des réseaux neuronaux convolutifs (CNN) ou des réseaux de débruitage. Les CNN constituent une excellente option pour ces approches, car ils se concentrent sur les motifs locaux, à savoir les contours, les textures et les petits détails.
Les architectures telles que U-Net sont largement utilisées car elles combinent des caractéristiques fines avec des informations multi-échelles. Cependant, les CNN fonctionnent principalement dans des voisinages limités, ce qui signifie qu'ils peuvent passer à côté de relations importantes qui s'étendent sur des régions plus vastes d'une image.
Des méthodes de débruitage de pointe assistées par transformateur ont été introduites pour pallier cette limitation. Au lieu de se contenter d'examiner les pixels voisins, la méthode proposée utilise des mécanismes d'attention pour comprendre comment les différentes parties d'une image sont liées les unes aux autres.
Certains modèles utilisent une attention globale complète, tandis que d'autres utilisent une attention hiérarchique ou basée sur des fenêtres afin de réduire les calculs, mais en général, ils sont conçus pour capturer des structures à longue portée que les CNN ne peuvent pas capturer à eux seuls. Cette vision plus large aide le modèle à restaurer les textures répétitives, les surfaces lisses ou les objets de grande taille qui nécessitent des informations provenant de l'ensemble de l'image.
Autres méthodes de débruitage d'images
Outre les techniques auto-supervisées, il existe plusieurs autres moyens de nettoyer les images bruitées. Les méthodes traditionnelles, telles que le filtrage bilatéral, le débruitage par ondelettes et les moyens non locaux, utilisent des règles mathématiques simples pour lisser le bruit tout en essayant de conserver les détails importants.
Parallèlement, il existe également des approches basées sur l'apprentissage profond, notamment des modèles supervisés qui apprennent à partir de paires d'images nettes et bruitées, et des réseaux antagonistes génératifs (GAN) qui produisent des résultats plus nets et plus réalistes. Cependant, ces méthodes nécessitent généralement une meilleure qualité d'image pour l'entraînement.
Examen étape par étape du fonctionnement du débruitage d'images auto-supervisé
Comme nous venons de passer en revue plusieurs techniques différentes, vous vous demandez peut-être si chacune d'entre elles fonctionne de manière totalement différente, étant donné qu'elles utilisent leurs propres architectures. Cependant, elles suivent toutes un processus similaire qui commence par la préparation des données et se termine par l'évaluation du modèle.
Ensuite, examinons de plus près le fonctionnement étape par étape du processus global de débruitage d'images auto-supervisé.
Étape 1 : Prétraitement et normalisation
Avant que le modèle puisse commencer à apprendre à partir d'images bruitées, la première étape consiste à s'assurer que toutes les images sont cohérentes. Les photos réelles peuvent varier considérablement.
Certaines images peuvent être trop lumineuses, d'autres trop sombres, et certaines peuvent présenter des couleurs légèrement décalées. Si nous intégrons directement ces variations dans un modèle, il devient plus difficile pour celui-ci de se concentrer sur l'apprentissage de l'apparence du bruit.
Pour y parvenir, chaque image est soumise à une normalisation et à un prétraitement de base. Cela peut inclure la mise à l'échelle des valeurs de pixels dans une plage standard, la correction des variations d'intensité ou le recadrage et le redimensionnement. L'essentiel est que le modèle reçoive des données propres pouvant être utilisées comme entrées stables et comparables.
Étape 2 : Création d'un signal d'entraînement auto-supervisé
Une fois les images normalisées, l'étape suivante consiste à créer un signal d'apprentissage qui permet au modèle d'apprendre sans jamais voir d'image propre. Les méthodes de débruitage auto-supervisées y parviennent en s'assurant que le modèle ne peut pas simplement copier les valeurs de pixels bruitées qu'il reçoit.
Au lieu de cela, elles créent des situations dans lesquelles le modèle doit s'appuyer sur le contexte environnant de l'image, qui contient une structure stable, plutôt que sur le bruit imprévisible. Différentes méthodes y parviennent de manière légèrement différente, mais l'idée fondamentale reste la même.
Certaines approches masquent ou dissimulent temporairement certains pixels afin que le modèle doive les déduire à partir de leurs voisins, tandis que d'autres génèrent une version corrompue séparément de la même image bruyante afin que l'entrée et la cible contiennent un bruit indépendant. Dans les deux cas, l'image cible contient des informations structurelles significatives, mais empêche le réseau d'accéder à la valeur bruyante originale du pixel qu'il est censé prédire.
Comme le bruit varie de manière aléatoire tandis que l'image sous-jacente reste constante, cette configuration encourage naturellement le modèle à apprendre à reconnaître la structure réelle et à ignorer le bruit qui varie d'une version à l'autre.
Étape 3 : Apprentissage du débruitage pour récupérer la structure de l'image
Une fois le signal d'entraînement en place, le modèle peut commencer à apprendre à séparer la structure significative de l'image du bruit grâce à l'entraînement du modèle. Chaque fois qu'il prédit un pixel masqué ou à nouveau corrompu, il doit s'appuyer sur le contexte environnant plutôt que sur la valeur bruyante qui occupait initialement cet emplacement.
Au fil de nombreuses itérations ou époques, cela apprend au réseau à reconnaître les types de motifs qui restent stables dans une image, tels que les contours, les textures et les surfaces lisses. Il apprend également à ignorer les fluctuations aléatoires qui caractérisent le bruit.
Prenons l'exemple d'une photo prise dans des conditions de faible luminosité, où une surface apparaît extrêmement granuleuse. Bien que le bruit varie d'un pixel à l'autre, la surface sous-jacente reste lisse. En déduisant à plusieurs reprises les pixels cachés dans ces zones, le modèle parvient progressivement à mieux identifier le motif stable sous-jacent au bruit et à le reconstruire de manière plus nette.
Grâce au processus d'apprentissage du modèle, le réseau apprend une représentation interne de la structure de l'image. Cela permet au modèle de récupérer des détails cohérents même lorsque l'entrée est fortement corrompue.
Étape 4 : Résultats de la validation et de la réduction du bruit
Une fois que le modèle a appris à prédire les pixels cachés ou à nouveau corrompus, la dernière étape consiste à évaluer ses performances sur des images complètes. Lors des tests, le modèle reçoit une image bruyante dans son intégralité et produit une version complète débruillée en se basant sur ce qu'il a appris au sujet de la structure de l'image. Pour mesurer l'efficacité de ce processus, le résultat est comparé à des images de référence propres ou à des ensembles de données de référence standard.
Deux mesures couramment utilisées sont le PSNR (rapport signal/bruit de crête), qui mesure la proximité de la reconstruction par rapport à la vérité terrain, et le SSIM (indice de similarité structurelle), qui évalue la qualité de préservation des caractéristiques importantes telles que les contours et les textures. Des scores élevés indiquent généralement un débruitage plus précis et visuellement plus fiable.
Ensembles de données d'images utilisés pour l'entraînement et l'évaluation comparative
Les recherches sur le débruitage auto-supervisé, publiées notamment dans les revues IEEE et lors des conférences CVF, CVPR, ICCV et ECCV, ainsi que largement diffusées sur arXiv, s'appuient souvent sur un mélange de jeux de données synthétiques et réels pour évaluer les performances des modèles d'apprentissage profond dans des conditions contrôlées et pratiques. D'une part, les jeux de données synthétiques commencent par des images propres auxquelles on ajoute du bruit artificiel, ce qui facilite la comparaison des méthodes à l'aide de mesures telles que le PSNR et le SSIM.
Voici quelques ensembles de données populaires couramment utilisés avec du bruit synthétique ajouté à des fins de benchmarking :
Kodak24: Cet ensemble de données fournit des photographies de scènes naturelles de haute qualité couramment utilisées pour comparer visuellement les résultats de débruitage.
DIV2K: cet ensemble de données haute résolution contient des images diverses et détaillées utilisées pour évaluer la fidélité des textures et la qualité globale de la restauration.
Les ensembles de données bruitées du monde réel, en revanche, contiennent des images capturées directement à partir de capteurs de caméra dans des conditions de faible luminosité, d'ISO élevé ou d'autres conditions difficiles. Ces ensembles de données permettent de tester si un modèle est capable de gérer des bruits complexes et non gaussiens qui ne peuvent pas être facilement simulés.
Voici quelques ensembles de données bruitées populaires issues du monde réel :
SIDD: Cet ensemble de données fournit des paires d'images réelles bruitées et nettes capturées à l'aide de capteurs de smartphones dans divers environnements d'éclairage.
DND: Il comprend des photographies à haute sensibilité ISO qui capturent les modèles de bruit réalistes des capteurs que l'on trouve dans les appareils photo grand public.
Fig. 4. Exemple tiré de l'ensemble de données du MDN. (Source)
Facteurs à prendre en compte lors de l'entraînement d'un modèle de débruitage auto-supervisé
Voici quelques facteurs et limites à prendre en compte si vous envisagez de former un modèle de débruitage auto-supervisé basé sur l'apprentissage profond :
Faites correspondre la distribution du bruit : les images bruitées utilisées pour l'entraînement doivent refléter le même bruit que celui que le modèle rencontrera en situation réelle ; un bruit non correspondant entraîne une mauvaise généralisation.
Assurez la diversité des données d'entraînement : une variation limitée peut entraîner un surajustement ou un lissage excessif dans les textures complexes.
Soyez conscient des limites liées au type de bruit : les méthodes auto-supervisées ont plus de mal à traiter les bruits structurés, corrélés ou non aléatoires.
Testez différents appareils ou capteurs : les performances de débruitage peuvent varier considérablement d'une caméra ou d'un système d'imagerie à l'autre.
Principaux points à retenir
Le débruitage auto-supervisé offre aux passionnés d'IA un moyen pratique de nettoyer les images en utilisant uniquement les données bruitées dont nous disposons déjà. En apprenant à reconnaître la structure réelle sous le bruit, ces méthodes permettent de récupérer des détails visuels importants. À mesure que la technologie de débruitage continue de s'améliorer, elle rendra probablement plus fiable un large éventail de tâches de vision par ordinateur dans des contextes quotidiens.