Semi-Supervised Learning (Teilüberwachtes Lernen)
Entdecken Sie, wie Semi-Supervised Learning beschriftete und unbeschriftete Daten kombiniert, um KI-Modelle zu verbessern, die Kennzeichnungskosten zu senken und die Genauigkeit zu erhöhen.
Semi-Supervised Learning (SSL) ist eine Technik des maschinellen Lernens (ML), die die Lücke zwischen überwachtem Lernen und unüberwachtem Lernen schließt. Es nutzt eine kleine Menge beschrifteter Daten zusammen mit einer großen Menge unbeschrifteter Daten, um die Lernleistung zu verbessern. In vielen realen Szenarien ist die Beschaffung unbeschrifteter Daten kostengünstig, aber der Prozess der Datenbeschriftung ist kostspielig und zeitaufwändig. SSL begegnet dieser Herausforderung, indem es Modellen ermöglicht, aus dem riesigen Pool unbeschrifteter Beispiele zu lernen, geleitet von der Struktur und den Informationen, die durch den kleineren beschrifteten Satz bereitgestellt werden. Dieser Ansatz ist besonders leistungsstark im Deep Learning (DL), wo Modelle enorme Datensätze benötigen, um eine hohe Leistung zu erzielen.
Wie teils überwachtes Lernen funktioniert
Die Grundidee hinter SSL ist die Verwendung der gelabelten Daten, um ein anfängliches Modell zu erstellen, und dann die Verwendung dieses Modells, um Vorhersagen über die ungelabelten Daten zu treffen. Die zuverlässigsten Vorhersagen des Modells werden dann als "Pseudo-Labels" behandelt und dem Trainingsdatensatz hinzugefügt. Das Modell wird dann auf dieser Kombination aus Original-Labels und hochzuverlässigen Pseudo-Labels erneut trainiert. Dieser iterative Prozess ermöglicht es dem Modell, die zugrunde liegende Struktur des gesamten Datensatzes zu erlernen, nicht nur den kleinen gelabelten Teil.
Gängige SSL-Techniken umfassen:
- Konsistenz-Regularisierung: Diese Methode erzwingt die Vorstellung, dass die Vorhersagen des Modells konsistent bleiben sollten, selbst wenn die Eingabedaten leicht verändert werden. Beispielsweise sollte ein Bild mit geringfügiger Datenerweiterung die gleiche Klassifizierung ergeben.
- Generative Modelle: Techniken wie Generative Adversarial Networks (GANs) können lernen, Daten zu generieren, die der tatsächlichen Datenverteilung ähneln, was dazu beiträgt, Entscheidungsbereiche zwischen Klassen besser zu definieren.
- Graphbasierte Methoden: Diese Methoden stellen Datenpunkte als Knoten in einem Graphen dar und propagieren Labels von gelabelten zu ungelabelten Knoten basierend auf ihrer Nähe oder Ähnlichkeit. Eine technische Übersicht finden Sie in akademischen Übersichten.
Anwendungsfälle in der Praxis
SSL ist in Bereichen, in denen die Kennzeichnung einen Engpass darstellt, sehr effektiv. Zwei prominente Beispiele sind:
- Medizinische Bildanalyse: Die Kennzeichnung medizinischer Scans wie MRTs oder CTs zur Tumorerkennung erfordert erfahrene Radiologen und ist sehr teuer. Mit SSL kann ein Modell auf einigen hundert beschrifteten Scans trainiert und dann mit Tausenden von unbeschrifteten Scans aus Krankenhausarchiven verfeinert werden. Dies ermöglicht die Entwicklung von robusten Bildklassifizierungs- und Segmentierungsmodellen mit deutlich weniger manuellem Aufwand.
- Webinhalte und Dokumentenklassifizierung: Das manuelle Klassifizieren von Milliarden von Webseiten, Nachrichtenartikeln oder Kundenrezensionen ist unpraktisch. SSL kann einen kleinen, manuell kategorisierten Satz von Dokumenten verwenden, um einen ersten Textklassifikator zu trainieren. Das Modell klassifiziert dann den riesigen Korpus unbeschrifteter Dokumente und verwendet seine eigenen Vorhersagen, um sich im Laufe der Zeit für Aufgaben wie Sentimentanalyse oder Themenkategorisierung zu verbessern.
Vergleich mit anderen Lernparadigmen
Es ist wichtig, SSL von verwandten Konzepten der Künstlichen Intelligenz (KI) abzugrenzen:
- Selbstüberwachtes Lernen (SSL): Obwohl es ein gemeinsames Akronym hat, ist selbstüberwachtes Lernen etwas anderes. Es handelt sich um eine Art des unüberwachten Lernens, bei dem die Beschriftungen aus den Daten selbst generiert werden, und zwar durch Vorgabe von Aufgaben (z. B. Vorhersage eines maskierten Wortes in einem Satz). Es werden keine manuell beschrifteten Daten verwendet, während beim halbüberwachten Lernen ein kleiner, explizit beschrifteter Datensatz erforderlich ist, um den Modelllernprozess zu steuern.
- Aktives Lernen: Diese Technik zielt ebenfalls darauf ab, die Kosten für die Kennzeichnung zu senken. Anstatt jedoch alle nicht beschrifteten Daten zu verwenden, fragt ein aktives Lernmodell auf intelligente Weise einen menschlichen Annotator ab, um die informativsten Datenpunkte zu beschriften. Im Gegensatz dazu verwendet SSL normalerweise die nicht beschrifteten Daten ohne direkte menschliche Interaktion während des Trainings.
- Lernen übertragen: Hierbei wird ein Modell verwendet, das zuvor auf einem großen Datensatz (wie ImageNet) trainiert wurde, und dann auf einem kleineren, aufgabenspezifischen Datensatz feinabgestimmt. Beide nutzen vorhandenes Wissen, aber SSL lernt aus den unbeschrifteten Daten der Zielaufgabe selbst, während Transfer Learning Wissen aus einer anderen (wenn auch oft verwandten) Aufgabe nutzt.
Tools und Training
Viele moderne Deep Learning (DL)-Frameworks, einschließlich PyTorch (PyTorch offizielle Seite) und TensorFlow (TensorFlow offizielle Seite), bieten Funktionalitäten oder können angepasst werden, um SSL-Algorithmen zu implementieren. Bibliotheken wie Scikit-learn bieten einige SSL-Methoden. Plattformen wie Ultralytics HUB optimieren den Prozess, indem sie die Verwaltung von Datensätzen erleichtern, die Mischungen aus gelabelten und ungelabelten Daten enthalten können, wodurch das Training und die Bereitstellung von Modellen vereinfacht werden, die diese Datenstrukturen nutzen sollen. Die Forschung im Bereich SSL entwickelt sich ständig weiter, wobei Beiträge oft auf großen KI-Konferenzen wie NeurIPS und ICML vorgestellt werden.