Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten

Selbstüberwachtes Lernen zur Entrauschung von Bildern

Abirami Vina

4 Min. Lesezeit

Oktober 27, 2025

Erfahren Sie, wie selbstüberwachtes Lernen Bilder entrauscht, Rauschen entfernt und die Klarheit mithilfe von KI-Techniken für Fotografie, Medizin und Bildverarbeitung verbessert.

Bilder sind Teil unseres täglichen Lebens, von den Fotos, die wir machen, bis zu den Videos, die von Kameras an öffentlichen Plätzen aufgenommen werden. Sie enthalten aufschlussreiche Informationen, und die Spitzentechnologie ermöglicht es, diese Daten zu analysieren und zu interpretieren. 

Insbesondere die Computer Vision, ein Teilgebiet der künstlichen Intelligenz (AI), ermöglicht es Maschinen, visuelle Informationen zu verarbeiten und zu verstehen, was sie sehen, ähnlich wie der Mensch es tut. In realen Anwendungen sind die Bilder jedoch oft alles andere als perfekt. 

Bildrauschen, das durch Regen, Staub, schlechte Lichtverhältnisse oder Sensoreinschränkungen verursacht wird, kann wichtige Details verdecken und es den KI-Modellen erschweren, Objekte zu erkennen oder Szenen genau zu interpretieren. Die Bildentrauschung hilft, dieses Rauschen zu reduzieren, so dass die KI-Modelle Details klarer erkennen und bessere Vorhersagen treffen können.

Abb. 1. Ein Beispiel für die Entrauschung eines Bildes.(Quelle)

Traditionell stützt sich die Bildentrauschung auf überwachtes Lernen, bei dem Modelle anhand von Paaren verrauschter und sauberer Bilder trainiert werden, um zu lernen, wie das Rauschen zu entfernen ist. Es ist jedoch nicht immer praktisch, perfekt saubere Referenzbilder zu sammeln.

Um diese Herausforderung zu meistern, haben Forscher selbstüberwachte Bildentschärfer entwickelt. Sie zielen darauf ab, KI-Modelle so zu trainieren, dass sie direkt aus den Daten lernen und ihre eigenen Lernsignale erzeugen, um Rauschen zu entfernen und wichtige Details zu erhalten, ohne dass saubere Referenzbilder benötigt werden.

In diesem Artikel werfen wir einen genaueren Blick auf selbstüberwachte Bildentschärfer, ihre Funktionsweise, die wichtigsten Techniken dahinter und ihre praktischen Anwendungen. Legen wir los!

Was ist selbstüberwachte Bildentrauschung?

Verrauschte Bilder können es den KI-Modellen von Vision erschweren, den Inhalt eines Bildes zu interpretieren. Ein Foto, das bei schlechten Lichtverhältnissen aufgenommen wurde, kann beispielsweise körnig oder unscharf erscheinen und feine Merkmale verbergen, die einem Modell helfen, Objekte genau zu identifizieren.

Bei der auf überwachtem Lernen basierendenEntrauschung werden Modelle anhand von Bildpaaren trainiert, von denen eines verrauscht und eines sauber ist, um zu lernen, wie unerwünschtes Rauschen entfernt werden kann. Dieser Ansatz funktioniert zwar gut, doch ist die Erfassung perfekt sauberer Referenzdaten in der Praxis oft zeitaufwändig und schwierig.

Aus diesem Grund haben sich Forscher der selbstüberwachten Bildentrauschung zugewandt. Die selbstüberwachte Bildentrauschung baut auf dem Konzept des selbstüberwachten Lernens auf, bei dem sich die Modelle selbst unterrichten, indem sie ihre eigenen Lernsignale aus den Daten erzeugen.  

Da diese Methode nicht von großen markierten Datensätzen abhängt, ist die selbstüberwachte Entrauschung schneller, besser skalierbar und einfacher in Bereichen wie der Fotografie bei schwachem Licht, der medizinischen Bildgebung und der Analyse von Satellitenbildern anwendbar, in denen saubere Referenzbilder oft nicht verfügbar sind.

Anstatt sich auf saubere Referenzbilder zu verlassen, trainiert dieser Ansatz direkt auf verrauschten Daten, indem er maskierte Pixel vorhersagt oder fehlende Teile rekonstruiert. Durch diesen Prozess lernt das Modell, zwischen bedeutungsvollen Bilddetails und zufälligem Rauschen zu unterscheiden, was zu klareren und genaueren Ergebnissen führt. 

Obwohl es dem unüberwachten Lernen ähnlich zu sein scheint, ist das selbstüberwachte Lernen eigentlich ein Spezialfall davon. Der Hauptunterschied besteht darin, dass das Modell beim selbstüberwachten Lernen seine eigenen Beschriftungen oder Trainingssignale aus den Daten erzeugt, um eine bestimmte Aufgabe zu lernen. Im Gegensatz dazu konzentriert sich unüberwachtes Lernen auf die Suche nach versteckten Mustern oder Strukturen in den Daten, ohne dass eine explizite Aufgabe oder ein vordefiniertes Ziel vorliegt.

Lernstrategien bei der selbstüberwachten Rauschunterdrückung

Bei der selbstüberwachten Rauschunterdrückung gibt es verschiedene Möglichkeiten des Lernens. Einige selbstüberwachte Entrauschungsmodelle füllen maskierte oder fehlende Pixel auf, während andere mehrere verrauschte Versionen desselben Bildes vergleichen, um konsistente Details zu finden. 

Eine beliebte Methode, die als Blind Spot Learning bekannt ist, besteht beispielsweise darin, das Entrauschungsmodell so zu trainieren, dass es das zu rekonstruierende Pixel ignoriert und sich stattdessen auf den umgebenden Kontext verlässt. Im Laufe der Zeit baut das Modell qualitativ hochwertige Bilder wieder auf, wobei wesentliche Texturen, Kanten und Farben erhalten bleiben.

Wie selbstüberwachtes Lernen funktioniert, um Rauschen zu entfernen

Als Nächstes werden wir untersuchen, wie selbstüberwachtes Lernen Rauschen beseitigt. 

Der Prozess der selbstüberwachten Rauschunterdrückung beginnt in der Regel mit der Eingabe verrauschter Bilder in das Rauschunterdrückungsmodell. Das Modell analysiert nahe gelegene Pixel, um abzuschätzen, wie jedes unklare oder maskierte Pixel aussehen sollte, und lernt so allmählich, zwischen Rauschen und echten visuellen Details zu unterscheiden.

Nehmen wir ein Bild eines dunklen, körnigen Himmels. Das Modell sieht sich nahe gelegene Sterne und umgebende Muster an, um vorherzusagen, wie jeder verrauschte Fleck ohne das Rauschen aussehen sollte. Durch Wiederholung dieses Prozesses über das gesamte Bild lernt es, zufälliges Rauschen von aussagekräftigen Merkmalen zu trennen, was zu einem klareren und genaueren Ergebnis führt.

Mit anderen Worten: Das Modell sagt eine sauberere Version des Bildes auf der Grundlage des Kontexts voraus, ohne dass eine perfekt saubere Referenz benötigt wird. Dieser Prozess kann mit verschiedenen Modelltypen umgesetzt werden, die jeweils unterschiedliche Stärken im Umgang mit Rauschen haben. 

Arten von Modellen für die selbstüberwachte Rauschunterdrückung in Bildern

Hier ein kurzer Überblick über die Arten von Modellen, die üblicherweise für die selbstüberwachte Bildentrauschung verwendet werden:

  • Faltungsneuronale Netze (CNNs): CNNs sind Deep-Learning-Modelle, die darauf ausgelegt sind, Muster in kleinen Bereichen eines Bildes zu erkennen. Sie scannen Bilder mithilfe von Filtern, um Kanten, Formen und Texturen zu erkennen. Bei der selbstüberwachten Entrauschung verwenden sie häufig Blindspot-Techniken, bei denen das Zielpixel von der Eingabe ausgeschlossen wird, so dass das Modell seinen Wert nur auf der Grundlage der umliegenden Pixel vorhersagt. Auf diese Weise kann das Modell das Kopieren von Rauschen vermeiden und stattdessen sauberere Details ableiten.
  • Autoencoder: Autoencoder sind neuronale Netze, die lernen, Daten zu komprimieren und zu rekonstruieren. Sie reduzieren ein Bild zunächst auf eine kleinere Darstellung (Kodierung) und bauen es dann wieder auf (Dekodierung). Dabei lernen sie, wichtige visuelle Merkmale wie Formen und Texturen zu erfassen und gleichzeitig zufälliges Rauschen und irrelevante Details herauszufiltern.
  • Transformator-basierte Modelle: Transformatoren sind Modelle, die ursprünglich für die Verarbeitung natürlicher Sprache entwickelt wurden, heute aber weithin für Bildverarbeitungsaufgaben eingesetzt werden. Sie verarbeiten das gesamte Bild auf einmal und lernen, wie sich verschiedene Regionen zueinander verhalten. Dank dieser globalen Perspektive können sie selbst in komplexen oder hochauflösenden Bildern feine Details und strukturelle Konsistenz bewahren.
Abbildung 2. Ein Blick auf eine CNN-basierte Architektur, die für die selbstüberwachte Bildentrauschung verwendet wird.(Quelle)

Wenn diese Modelle mit Bildern trainiert werden, die bei unterschiedlichen Licht- und ISO-Einstellungen aufgenommen wurden, können sie in vielen realen Situationen gut funktionieren. Bei Digitalkameras steuern die ISO-Einstellungen, wie stark die Kamera das Bild durch Verstärkung des empfangenen Signals aufhellt. 

Ein höherer ISO-Wert macht Fotos an dunklen Stellen heller, erhöht aber auch das Rauschen und verringert die Detailgenauigkeit. Indem die Modelle von Bildern lernen, die mit unterschiedlichen ISO-Werten aufgenommen wurden, können sie echte Details besser von Rauschen unterscheiden, was zu klareren und genaueren Ergebnissen führt.

Wie lernt ein Denoiser, was Rauschen und was echt ist?

Denoiser lernen durch verschiedene Trainingstechniken, die von den für die Entrauschung verwendeten Modelltypen getrennt sind, Rauschen von echten Bilddetails zu unterscheiden. Modelltypen wie CNNs, Autoencoder und Transformatoren beschreiben die Struktur des Netzwerks und wie es visuelle Informationen verarbeitet.

Die Trainingstechniken hingegen bestimmen, wie das Modell lernt. Einige Methoden verwenden kontextbasierte Vorhersagen, bei denen das Modell fehlende oder maskierte Pixel durch Informationen aus nahe gelegenen Bereichen ergänzt. 

Andere nutzen rekonstruktionsbasiertes Lernen, bei dem das Modell ein Bild in eine einfachere Form komprimiert und dann neu aufbaut, um sinnvolle Strukturen wie Kanten und Texturen zu erkennen und gleichzeitig zufällige Störungen herauszufiltern.

Der Modelltyp und die Trainingstechnik bestimmen gemeinsam, wie effektiv ein Denoiser Bilder bereinigen kann. Durch die Kombination der richtigen Architektur mit dem richtigen Lernansatz können sich selbstüberwachte Entrauschungsprogramme an viele Arten von Rauschen anpassen und klarere, genauere Bilder auch ohne saubere Referenzdaten erzeugen.

Schlüsseltechniken der selbstüberwachten AI-Bildentrauschung

Im Folgenden werden einige der am häufigsten verwendeten Trainingstechniken vorgestellt, die eine effektive selbstüberwachte Bildentrauschung ermöglichen:

  • Rauschen2Rauschen: Bei dieser Methode wird ein Modell anhand von zwei verrauschten Versionen desselben Bildes trainiert. Da das Rauschen in jeder Version zufällig ist, lernt das Modell, sich auf konsistente Details zu konzentrieren, die das echte Bild darstellen, und das Rauschen zu ignorieren. Es funktioniert am besten, wenn mehrere verrauschte Aufnahmen derselben Szene verfügbar sind, wie z. B. bei der Serienbildfotografie oder der medizinischen und wissenschaftlichen Bildgebung.
  • Noise2Void oder Noise2Self: Bei diesen Verfahren wird ein einzelnes verrauschtes Bild trainiert, indem ein Pixel versteckt (maskiert) wird und das Modell aufgefordert wird, seinen Wert anhand der umliegenden Pixel vorherzusagen. Dadurch wird verhindert, dass das Modell verrauschte Daten einfach kopiert, und es lernt die natürliche Struktur von Bildern. Sie sind besonders nützlich, wenn nur ein verrauschtes Bild zur Verfügung steht, wie z. B. in der Mikroskopie, der Astronomie oder der Fotografie bei schwachem Licht.
  • Blinde Flecken-Netzwerke: Sie sind speziell so konzipiert, dass das Modell das Pixel, das es rekonstruiert, nicht sehen kann. Stattdessen stützt es sich auf Informationen aus der Umgebung, um zu schätzen, wie dieses Pixel aussehen sollte. Dadurch wird die Rauschentfernung genauer und unvoreingenommener, und sie werden häufig mit Noise2Void- oder Noise2Self-Methoden bei der pixelweisen Entrauschung kombiniert.
  • Maskierte Autoencoder (MAE): Bei diesem Ansatz werden Teile eines Bildes ausgeblendet, und das Modell lernt, die fehlenden Bereiche zu rekonstruieren. Auf diese Weise lernt es sowohl feine Details als auch die Gesamtstruktur und kann so echte Inhalte von Rauschen unterscheiden. Maskierte Autokodierer sind besonders effektiv für hochauflösende oder komplexe Bilder, bei denen das Verständnis des breiteren Kontexts die Wiederherstellung verbessert.

Bewertung von Bild-Entrauschungs-Systemen

Bei der Bildentrauschung geht es um ein ausgewogenes Verhältnis zwischen zwei Zielen: Rauschunterdrückung und Erhaltung feiner Details. Eine zu starke Entrauschung kann ein Bild weich oder unscharf aussehen lassen, während eine zu geringe Entrauschung unerwünschte Körnung oder Artefakte hinterlassen kann.

Um zu verstehen, wie gut ein Modell dieses Gleichgewicht hält, verwenden die Forscher Bewertungsmetriken, die sowohl die Bildklarheit als auch die Detailerhaltung messen. Diese Metriken zeigen, wie gut ein Modell ein Bild bereinigt, ohne wichtige visuelle Informationen zu verlieren. 

Im Folgenden werden gängige Bewertungsmetriken zur Messung der Bildqualität und der Entrauschungsleistung vorgestellt:

  • Mittlerer quadratischer Fehler (MSE): Er misst die durchschnittliche quadratische Differenz zwischen dem Original und dem entrauschten Bild. Er verdeutlicht, wie nahe die Ausgabe dem Original auf Pixelebene kommt. Niedrigere MSE-Werte bedeuten weniger Fehler und ein genaueres Ergebnis.
  • Peak Signal-to-Noise Ratio (PSNR): Diese Metrik vergleicht die Stärke des ursprünglichen Bildsignals mit dem verbleibenden Rauschen, ausgedrückt in Dezibel. Damit lässt sich feststellen, wie viele der ursprünglichen Details nach der Entrauschung erhalten geblieben sind. Höhere PSNR-Werte bedeuten klarere, qualitativ hochwertigere Bilder.
  • Strukturelles Ähnlichkeitsindexmaß (SSIM): SSIM bewertet die Struktur, die Helligkeit und den Kontrast, um die Ähnlichkeit zwischen dem entrauschten Bild und dem Original zu beurteilen. Er konzentriert sich darauf, wie Menschen Bilder sehen, und nicht nur auf rohe Zahlen. Höhere SSIM-Werte bedeuten, dass das Bild natürlicher und originalgetreuer aussieht.
  • Wahrnehmungsmetriken: Diese Metriken verwenden Deep-Learning-Modelle, um zu beurteilen, wie realistisch und natürlich ein Bild aussieht. Anstatt einzelne Pixel zu vergleichen, konzentrieren sie sich auf das Gesamterscheinungsbild, die Textur und die visuelle Ähnlichkeit. In den meisten Fällen bedeutet eine niedrigere Punktzahl, dass das Bild dem Original näher kommt und für den Menschen visuell angenehmer ist.

Anwendungen der selbstüberwachten Rauschunterdrückung

Nachdem wir nun besser verstanden haben, was Entrauschung ist, wollen wir untersuchen, wie die selbstüberwachte Bildentrauschung in realen Szenarien angewendet wird.

Selbstüberwachte Rauschunterdrückung in der Astrofotografie

Es ist nicht einfach, klare Fotos von Sternen und Galaxien zu machen. Der Nachthimmel ist dunkel, so dass die Kameras oft lange Belichtungszeiten benötigen, was zu unerwünschtem Rauschen führen kann. Dieses Rauschen kann feine kosmische Details verwischen und die Erkennung schwacher Signale erschweren

Herkömmliche Rauschunterdrückungstools können helfen, das Rauschen zu reduzieren, aber sie entfernen oft auch wichtige Details. Die selbstüberwachte Rauschunterdrückung bietet eine intelligentere Alternative. Durch direktes Lernen aus verrauschten Bildern kann das KI-Modell Muster erkennen, die echte Merkmale darstellen, und diese von zufälligem Rauschen trennen.

Das Ergebnis sind viel klarere Bilder von Himmelsobjekten wie Sternen, Galaxien und der Sonne, auf denen schwache Details zu erkennen sind, die sonst unbemerkt bleiben würden. Außerdem können subtile astronomische Merkmale hervorgehoben werden, was die Bildklarheit verbessert und die Daten für die wissenschaftliche Forschung nützlicher macht.

Abb. 3. Die Bildentrauschung kann Astrofotografie-Bilder verbessern.(Quelle)

Selbstüberwachte Rauschunterdrückung für die medizinische Bildgebung

Medizinische Scans wie MRTs, CTs und mikroskopische Bilder enthalten oft Rauschen, das die Erkennung kleiner Details erschwert. Dies kann ein Problem sein, wenn Ärzte frühe Anzeichen von Krankheiten erkennen oder Veränderungen im Laufe der Zeit verfolgen müssen. 

Das Bildrauschen kann durch die Bewegung des Patienten, eine geringe Signalstärke oder eine begrenzte Strahlenbelastung verursacht werden. Um medizinische Scans klarer zu machen, haben Forscher selbstüberwachte Entrauschungsmethoden wie Noise2Self und andere ähnliche Ansätze erforscht. 

Diese Modelle werden direkt auf verrauschten MRT-Bildern des Gehirns trainiert, lernen die Rauschmuster selbständig und bereinigen sie, ohne dass sie vollkommen klare Beispiele benötigen. Die bearbeiteten Bilder zeigten schärfere Texturen und einen besseren Kontrast, so dass feine Strukturen leichter zu erkennen waren. Solche KI-gestützten Entschärfer rationalisieren den Arbeitsablauf in der diagnostischen Bildgebung und verbessern die Effizienz der Echtzeitanalyse.

Abb. 4. Anwendung verschiedener selbstüberwachter Rauschunterdrückungstechniken bei MRT-Scans des Gehirns.(Quelle)

Verbesserung von Bildverarbeitungssystemen mit selbstüberwachter Rauschunterdrückung

In den meisten Fällen hat die Entrauschung erhebliche Auswirkungen auf eine Vielzahl von Computer-Vision-Anwendungen. Durch das Entfernen von unerwünschtem Rauschen und Verzerrungen entstehen sauberere und konsistentere Eingabedaten, die von KI-Modellen verarbeitet werden können.

Klarere Bilder führen zu einer besseren Leistung bei Computer-Vision-Aufgaben wie Objekterkennung, Instanzsegmentierung und Bilderkennung. Hier sind einige Beispiele für Anwendungen, bei denen Vision AI-Modelle wie Ultralytics YOLO11 und Ultralytics YOLO26 von der Entrauschung profitieren können:

  • Industrielle Inspektion: Denoising ermöglicht eine genauere Erkennung von Oberflächendefekten oder Anomalien in Produktionsumgebungen, was zu einer verbesserten Qualitätskontrolle führt.
  • Autonomes Fahren und Navigation: Sie verbessert die Erkennung von Objekten und Hindernissen unter schwierigen Bedingungen wie schlechten Lichtverhältnissen, Regen oder Nebel und erhöht so die allgemeine Sicherheit und Zuverlässigkeit.
  • Überwachung und Sicherheit: Die Rauschunterdrückung verbessert die Bildqualität bei schlechten Lichtverhältnissen oder hochkomprimierten Videos und ermöglicht eine bessere Identifizierung und Verfolgung von Objekten oder Personen.
  • Unterwasser-Bildgebung: Die Rauschunterdrückung reduziert Streuung und Lichtverzerrung und verbessert die Sichtbarkeit und Objekterkennung bei trüben Unterwasserbedingungen.

Vor- und Nachteile der selbstüberwachten Rauschunterdrückung

Hier sind einige der wichtigsten Vorteile der selbstüberwachten Entrauschung in bildgebenden Systemen:

  • Anpassungsfähigkeit an Rauschen: Selbstüberwachte Rauschunterdrückungsmethoden können direkt aus verrauschten Daten lernen, ohne dass gepaarte saubere Referenzen erforderlich sind. Dadurch sind sie sehr anpassungsfähig an eine breite Palette realer Rauschpegel und -typen, wie Sensorrauschen, Bewegungsunschärfe oder Umgebungsstörungen.
  • Erhaltung von Details: Wenn sie gut konzipiert sind, bewahren diese Modelle feine Texturen und Kanten, die für eine genaue Bildinterpretation unerlässlich sind. Ansätze wie Blindspot-Netzwerke und maskierungsbasiertes Lernen helfen, strukturelle Informationen zu erhalten und gleichzeitig Rauschen zu reduzieren.
  • Weniger Vorverarbeitung: Da das Modell lernt, verrauschte Eingaben auf saubere Repräsentationen abzubilden, indem es nur die verfügbaren Daten verwendet, minimiert es den Bedarf an manueller Filterung, handgefertigten Entrauschungsalgorithmen oder kuratierten Trainingsdatensätzen.

Trotz ihrer Vorteile bringt die selbstüberwachte Entrauschung auch gewisse Einschränkungen mit sich. Hier sind ein paar Faktoren zu berücksichtigen:

  • Rechnerische Anforderungen: Tiefe neuronale Architekturen, die für die selbstüberwachte Entrauschung verwendet werden, insbesondere transformatorbasierte Modelle, können im Vergleich zu herkömmlichen Filtertechniken erhebliche Rechenleistung und Speicherressourcen erfordern.
  • Komplexität der Modellgestaltung: Um optimale Ergebnisse zu erzielen, ist eine sorgfältige Auswahl der Modelleinstellungen erforderlich, z. B. der Maskierungsstrategie und der Verlustfunktion, die je nach Rauschart variieren können.
  • Herausforderungen bei der Bewertung: Herkömmliche Bildqualitätskennzahlen geben nicht immer Aufschluss darüber, wie natürlich oder realistisch ein entrauschtes Bild aussieht, daher sind oft visuelle oder aufgabenspezifische Prüfungen erforderlich.

Wesentliche Erkenntnisse

Die selbstüberwachte Entrauschung hilft KI-Modellen, direkt aus verrauschten Bildern zu lernen und so klarere Ergebnisse zu erzielen, während feine Details erhalten bleiben. Sie funktioniert effektiv in einer Vielzahl von schwierigen Szenarien, z. B. bei schwachem Licht, hohem ISO-Wert und detaillierten Bildern. Im Zuge der Weiterentwicklung der künstlichen Intelligenz werden solche Techniken wahrscheinlich eine wesentliche Rolle in verschiedenen Bildverarbeitungsanwendungen spielen. 

Werden Sie Mitglied unserer Community und erkunden Sie unser GitHub-Repository, um mehr über KI zu erfahren. Wenn Sie Ihr eigenes Vision AI-Projekt aufbauen möchten, informieren Sie sich über unsere Lizenzierungsoptionen. Erfahren Sie mehr über Anwendungen wie KI im Gesundheitswesen und Vision AI im Einzelhandel, indem Sie unsere Lösungsseiten besuchen.

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens

Kostenlos starten
Link in die Zwischenablage kopiert