Schalten Sie ein zu YOLO Vision 2025!
25. September 2025
10:00 — 18:00 Uhr BST
Hybride Veranstaltung
Yolo Vision 2024

Was ist Thresholding in der Bildverarbeitung?

5 Min. Lesezeit

12. August 2025

Entdecken Sie die Schwellenwertbildung in der Bildverarbeitung mit diesem Leitfaden. Erfahren Sie, was Schwellenwertbildung ist, und verschiedene Techniken der Bildschwellenwertbildung, einschließlich der Otsu-Schwellenwertbildung.

Als Menschen sehen wir Bilder als zusammenhängende, aussagekräftige Bilder, während Computer sie als Raster aus winzigen Pixeln betrachten, den kleinsten Bestandteilen eines digitalen Bildes. Bei einem Prozess, der als Bildverarbeitung bezeichnet wird, können diese Pixel angepasst oder analysiert werden, um das Bild zu verbessern und nützliche Informationen zu extrahieren.

Eine gängige Bildverarbeitungstechnik ist die Bildsegmentierung (Image Thresholding). Diese Methode wandelt Graustufenbilder (bei denen jedes Pixel einen Grauton darstellt) in Schwarzweißbilder um, indem jedes Pixel mit einem festgelegten Wert verglichen wird. Dadurch wird eine klare Trennung zwischen wichtigen Regionen und dem Hintergrund geschaffen.

Die Schwellenwertbildung wird häufig in der Bildsegmentierung verwendet, einer Technik, die ein Bild in sinnvolle Regionen aufteilt, um die Analyse zu erleichtern. Sie ist typischerweise einer der ersten Schritte, um Maschinen bei der Interpretation visueller Daten zu unterstützen. In diesem Artikel werden wir uns ansehen, was Schwellenwertbildung ist, wie sie funktioniert und wo sie in realen Szenarien angewendet wird. Lass uns anfangen!

Grundlegende Terminologie bei der Bildschwellenwertbildung

Bevor wir uns damit beschäftigen, wie Thresholding funktioniert, wollen wir uns zunächst die grundlegenden Ideen dahinter genauer ansehen und wie es in der Bildverarbeitung eingesetzt wird.

Binäre Bildschwellenwert

Nehmen wir an, Sie arbeiten mit einem Bild und möchten die Objekte darin vom Hintergrund trennen. Eine Möglichkeit, dies zu tun, ist die Schwellenwertbildung. Sie vereinfacht das Bild so, dass jedes Pixel entweder vollständig schwarz oder vollständig weiß ist. Das Ergebnis ist ein binäres Bild, bei dem jedes Pixel einen Wert von 0 (schwarz) oder 255 (weiß) hat. Dieser Schritt ist in der Bildverarbeitung oft nützlich, weil er die wichtigen Teile des Bildes deutlich hervorhebt.

Abb. 1. Ein Graustufenbild und seine binäre Ausgabe nach der Schwellenwertbildung. (Quelle) 

Histogramm

Wenn Sie beispielsweise verstehen möchten, wie die Helligkeitswerte über ein Bild verteilt sind, kann ein Histogramm helfen. Es ist ein Diagramm, das zeigt, wie oft jede Pixelintensität vorkommt, von Schwarz (0) bis Weiß (255). 

Durch die Betrachtung des Histogramms können Sie erkennen, ob das Bild dunkel, hell oder irgendwo dazwischen ist. Dies erleichtert die Wahl eines guten Schwellenwerts bei der Umwandlung des Bildes in Schwarzweiß, da Sie Muster und Kontraststufen auf einen Blick erkennen können.

Vordergrund und Hintergrund

Sobald ein Bild schwellwertbasiert segmentiert wurde, wird es in zwei Teile geteilt: den Vordergrund und den Hintergrund. Der Vordergrund, typischerweise in Weiß dargestellt, hebt die wichtigen Elemente hervor, wie Text, Formen oder Objekte, die Sie erkennen möchten. Der Hintergrund, in Schwarz dargestellt, ist alles andere. Diese Trennung hilft Maschinen, sich auf das Wesentliche im Bild zu konzentrieren.

Segmentierung

Wie bereits erwähnt, unterteilt die Segmentierung ein Bild in sinnvolle Regionen basierend auf Merkmalen wie Helligkeit oder Textur. Die Schwellenwertbildung ist eine einfache Möglichkeit, dies zu tun, und ist oft einer der ersten Schritte in einer Computer-Vision-Pipeline. 

Computer Vision ist ein Zweig der KI, der es Maschinen ermöglicht, visuelle Daten zu verarbeiten und zu interpretieren, ähnlich wie Menschen es tun. Durch die frühe Verwendung von Schwellenwerten im Prozess können Computer-Vision-Systeme Objekte von ihrem Hintergrund trennen, wodurch es für spätere Schritte, wie z. B. Erkennung, einfacher wird, genau zu arbeiten.

Globale Schwellenwertbildung

Nachdem wir nun ein besseres Verständnis davon haben, was Schwellenwertbildung ist, wollen wir uns ansehen, wie man ein Bild schwellwertet und welche verschiedenen Arten der Schwellenwertbildung in der Bildverarbeitung es gibt.

Die globale Schwellenwertbildung ist beispielsweise eine der einfachsten Möglichkeiten, ein Binärbild zu erstellen. Sie wendet einen einzelnen Intensitätswert auf das gesamte Bild an. Pixel, die heller als dieser Schwellenwert sind, werden weiß, während dunklere Pixel schwarz werden. Dies hilft, das Objekt vom Hintergrund zu trennen.

Es funktioniert am besten, wenn das Bild eine gleichmäßige Ausleuchtung und einen starken Kontrast aufweist. Bei ungleichmäßiger Beleuchtung oder kontrastarmen Bereichen kann ein einzelner Schwellenwert jedoch Details übersehen oder Kanten verwischen.

Um dies zu bewerkstelligen, werden Methoden wie Otsus Thresholding verwendet. Anstatt einen Wert manuell festzulegen, analysiert die Otsu-Methode zur Schwellenwertbildung das Histogramm des Bildes und wählt einen Schwellenwert, der die Pixelintensitäten am besten in Vordergrund und Hintergrund trennt. 

Abb. 2. Ein Bild des Saturn vor und nach der Anwendung der Otsu-Schwellenwertmethode. (Quelle)

Lokale (adaptive) Schwellenwertbildung

Im Gegensatz zur globalen Schwellenwertbildung berechnet die adaptive oder lokale Schwellenwertbildung den Schwellenwert separat für verschiedene Teile des Bildes. Dies macht sie effektiver für Bilder mit ungleichmäßiger Beleuchtung, wie z. B. gescannte Dokumente mit Schatten oder strukturierte Oberflächen.

Es funktioniert, indem es das Bild in kleine Bereiche unterteilt und für jeden Block einen lokalen Schwellenwert berechnet, was hilft, den Kontrast zwischen Vorder- und Hintergrund aufrechtzuerhalten. Dieser Ansatz wird häufig bei Aufgaben wie Texterkennung, medizinischer Bildgebung und Oberflächeninspektion eingesetzt, bei denen die Beleuchtung im Bild variiert.

Einige gängige Ansätze für die adaptive Schwellenwertbildung in der Bildverarbeitung umfassen die adaptive Mittelwert- und die adaptive Gaußsche Schwellenwertbildung. Bei der adaptiven Mittelwert-Schwellenwertbildung wird die durchschnittliche Pixelintensität in einer lokalen Nachbarschaft als Schwellenwert für den Mittelpunktpixel verwendet. Die adaptive Gaußsche Schwellenwertbildung hingegen verwendet einen gewichteten Durchschnitt mit einem Gaußschen Fenster, wodurch Pixel, die näher am Zentrum liegen, stärker gewichtet werden.

Anwendungsfälle der Schwellenwertbildung in der Bildverarbeitung

Als Nächstes wollen wir untersuchen, wo die Bildsegmentierung in realen Anwendungen eingesetzt wird.

Bildschwellenwerte für Dokumentbinarisierung und OCR

Alte Bücher und handgeschriebene Briefe werden oft gescannt, um sie zu erhalten oder mit OCR (Optical Character Recognition), einer Technologie, die gedruckte oder handgeschriebene Zeichen liest, in digitalen Text umzuwandeln. Bevor der Text extrahiert werden kann, muss das Dokument in der Regel bereinigt oder vorverarbeitet werden. Gescannte Bilder weisen oft Schatten, verblasste Tinte oder ungleichmäßige Beleuchtung auf, was die Zeichenerkennung erschweren kann.

Um die Klarheit zu verbessern, wird Thresholding verwendet, um Graustufenbilder in ein binäres Format zu konvertieren, wodurch der Text vom Hintergrund isoliert wird. Dunklere Bereiche, wie die Buchstaben, werden schwarz, während der hellere Hintergrund weiß wird - was es OCR-Systemen erheblich erleichtert, den Text zu lesen.

Abb. 3. Ein Beispiel für ein historisches Dokument und sein schwellenwertiges Bild. (Quelle)

Verwendung von Schwellenwertbildung in der medizinischen Bildverarbeitung 

In ähnlicher Weise wird die Schwellenwertsegmentierung in der medizinischen Bildgebung häufig verwendet, um bestimmte Strukturen in Scans zu isolieren, wie z. B. Knochen oder Lungen in Röntgenbildern. Durch die Umwandlung von Graustufenbildern in ein binäres Format wird es einfacher, interessante Bereiche vom umgebenden Gewebe zu trennen und das Bild für weitere Analysen vorzubereiten. In komplexeren Fällen kann eine mehrstufige Schwellenwertsegmentierung angewendet werden, um das Bild in mehrere unterschiedliche Regionen zu unterteilen, wodurch verschiedene Arten von Gewebe oder Strukturen gleichzeitig identifiziert werden können.

Abb. 4. Verwendung von Multi-Level-Thresholding-Methoden auf Röntgenaufnahmen des Brustkorbs. (Quelle)

Vor- und Nachteile der Schwellenwertbildung in der Bildverarbeitung

Hier sind einige der wichtigsten Vorteile der Verwendung von Schwellenwerten in der Bildverarbeitung:

  • Ressourcenschonend: Thresholding funktioniert gut auf Geräten mit geringem Stromverbrauch und benötigt keinen Cloud-Zugriff oder High-End-Hardware, wodurch es sich für eingebettete Systeme und Offline-Setups eignet.
  • Leicht zu interpretieren: Seine einfache Logik macht die Schwellenwertausgabe leicht verständlich und debuggbar, was in Bereichen wie dem Gesundheitswesen oder der Dokumentenverarbeitung, in denen Transparenz wichtig ist, von entscheidender Bedeutung ist.
  • Schnelle Tests: Die Schwellenwertbildung ermöglicht es Teams, Segmentierungsideen in frühen Projektphasen schnell zu erkunden, bevor sie zu komplexeren Modellen übergehen.

Obwohl die Bildschwellenwertbildung in vielen Szenarien nützlich ist, bringt sie auch bestimmte Einschränkungen mit sich. Hier sind einige Herausforderungen im Zusammenhang mit der Schwellenwertbildung, die es zu berücksichtigen gilt:

  • Mangelnde Anpassungsfähigkeit: Thresholding folgt festen Regeln und passt sich ohne manuelle Anpassung nicht an neue Lichtverhältnisse oder Variationen in den Daten an.
  • Empfindlich gegenüber Rauschen: Kleine Helligkeitsänderungen durch Schatten oder Reflexionen können die Ergebnisse verfälschen, insbesondere bei der Arbeit mit detaillierten oder strukturierten Bildern.
  • Statisch und regelbasiert: Im Gegensatz zu KI-Modellen lernt Thresholding nicht aus Daten oder verbessert sich im Laufe der Zeit. Es funktioniert nur unter den engen Bedingungen, für die es entwickelt wurde.

Jenseits der Bildschwellenwerte: Wann Computer Vision das richtige Werkzeug ist

Die Schwellenwertbildung eignet sich gut für einfache Segmentierungsaufgaben in kontrollierten Umgebungen. Sie hat jedoch oft Schwierigkeiten bei der Verarbeitung komplexer Bilder mit mehreren Objekten oder Hintergrundrauschen. Da sie auf festen Regeln basiert, fehlt der Schwellenwertbildung die Flexibilität, die für die meisten realen Anwendungen erforderlich ist.

Um diese Grenzen zu überwinden, verwenden viele hochmoderne Systeme jetzt Computer Vision. Im Gegensatz zum Thresholding werden Vision AI-Modelle trainiert, um komplexe Muster und Merkmale zu erkennen, wodurch sie weitaus genauer und anpassungsfähiger sind.

Beispielsweise können Computer Vision Modelle wie Ultralytics YOLO11 Objekte erkennen und Bilder in Echtzeit segmentieren. Dies macht sie ideal für Aufgaben wie das Erkennen von Verkehrssignalen in autonomen Fahrzeugen oder das Identifizieren von Problemen mit Feldfrüchten in der Landwirtschaft. 

Insbesondere unterstützt YOLO11 eine Reihe von Computer-Vision-Aufgaben, wie z. B. die Instanzsegmentierung, bei der jedes Objekt in einem Bild separat segmentiert wird. Es kann auch andere bildbasierte Aufgaben ausführen, darunter die Pose-Schätzung (Bestimmung der Position oder Haltung eines Objekts) und die Objektverfolgung (Verfolgung eines Objekts, während es sich über Videoframes bewegt).

Abb. 5. YOLO11 macht das Erkennen und Segmentieren von Objekten einfach. (Quelle)

Während Thresholding für einfache Aufgaben oder das Testen früher Ideen gut funktioniert, werden Anwendungen, die Geschwindigkeit, Genauigkeit und Flexibilität erfordern, in der Regel besser mit Computer Vision bewältigt.

Wesentliche Erkenntnisse

Die Schwellenwertbildung ist ein wichtiges Werkzeug in der Bildverarbeitung, da sie schnell und einfach verwendet werden kann, um Objekte vom Hintergrund zu trennen. Sie funktioniert gut mit gescannten Dokumenten, medizinischen Bildern und der Überprüfung von Produktfehlern in Fabriken. 

Da Bilder und Videos jedoch immer komplexer werden, stoßen grundlegende Bildverarbeitungsmethoden wie die Bildsegmentierung an ihre Grenzen. Hier können fortschrittliche Computer-Vision-Modelle Abhilfe schaffen. Modelle wie YOLO11 können mehr Aufgaben verstehen und ausführen, viele Objekte gleichzeitig erkennen und in Echtzeit arbeiten, was sie für viele Anwendungsfälle nützlich macht.

Möchten Sie mehr über KI erfahren? Besuchen Sie unsere Community und unser GitHub-Repository. Erkunden Sie unsere Lösungsseiten, um mehr über KI in der Robotik und Computer Vision in der Landwirtschaft zu erfahren. Entdecken Sie unsere Lizenzoptionen und beginnen Sie noch heute mit der Entwicklung von Computer Vision-Anwendungen!

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens

Kostenlos starten
Link in die Zwischenablage kopiert