Entdecken Sie, wie Semi-Supervised Learning gelabelte und nicht gelabelte Daten kombiniert, um KI-Modelle zu verbessern, die Labeling-Kosten zu senken und die Genauigkeit zu erhöhen.
Semi-Überwachtes Lernen (Semi-Supervised Learning, SSL) ist ein leistungsfähiger Mittelweg beim maschinellen Lernen (ML), bei dem eine kleine Menge an gekennzeichneten Daten mit einer großen Menge an nicht gekennzeichneten Daten während des Trainings kombiniert wird. Dieser Ansatz ist besonders wertvoll in Szenarien, in denen die Beschaffung von gekennzeichneten Daten teuer, zeitaufwändig oder unpraktisch ist, während nicht gekennzeichnete Daten im Überfluss vorhanden sind. SSL zielt darauf ab, die zugrundeliegende Struktur in den unmarkierten Daten zu nutzen, um die Modellleistung über das hinaus zu verbessern, was nur mit den begrenzten markierten Daten erreicht werden könnte.
SSL-Algorithmen beruhen auf bestimmten Annahmen über die Beziehung zwischen beschrifteten und unbeschrifteten Daten. Zu den gängigen Annahmen gehören die "Glattheitsannahme" (nahe beieinander liegende Punkte teilen wahrscheinlich ein Label) oder die "Clusterannahme" (Daten neigen dazu, verschiedene Cluster zu bilden, und Punkte innerhalb desselben Clusters teilen wahrscheinlich ein Label). Bei diesen Techniken wird häufig ein erstes Modell auf den beschrifteten Daten trainiert und dann verwendet, um Pseudo-Beschriftungen für die unbeschrifteten Daten auf der Grundlage von Vorhersagen mit hoher Zuverlässigkeit zu generieren. Das Modell wird dann sowohl auf den ursprünglich beschrifteten Daten als auch auf den neu pseudo-beschrifteten Daten neu trainiert. Ein anderer Ansatz ist die Konsistenzregulierung, bei der das Modell dazu angehalten wird, für ein unbeschriftetes Beispiel dieselbe Ausgabe zu produzieren, selbst wenn seine Eingabe leicht gestört ist, was häufig durch Datenvergrößerung erreicht wird. Diese Methoden ermöglichen es dem Modell, aus den Mustern und der Verteilung zu lernen, die in dem großen Pool von unbeschrifteten Beispielen enthalten sind. Weitergehende Techniken werden in Ressourcen wie den Google AI Blog-Beiträgen zu SSL erforscht.
Semi-Supervised Learning nimmt einen einzigartigen Platz zwischen anderen primären Lerntypen ein:
SSL ist in Bereichen, in denen die Etikettierung einen Engpass darstellt, sehr effektiv:
Der Hauptvorteil von SSL ist die Fähigkeit, die Abhängigkeit von großen beschrifteten Datensätzen zu verringern und damit Zeit und Ressourcen zu sparen, die mit der Datenbeschriftung verbunden sind. Es führt oft zu einer besseren Modellgeneralisierung im Vergleich zu rein überwachten Modellen, die auf begrenzten Daten trainiert wurden, indem Informationen aus nicht beschrifteten Stichproben genutzt werden. Der Erfolg von SSL hängt jedoch stark davon ab, dass die zugrunde liegenden Annahmen über die Daten korrekt sind. Wenn diese Annahmen nicht zutreffen (z. B. wenn sich die Verteilung der unbeschrifteten Daten stark von der der beschrifteten Daten unterscheidet), können SSL-Methoden die Leistung sogar verschlechtern. Eine sorgfältige Auswahl und Implementierung von SSL-Techniken ist von entscheidender Bedeutung und erfordert oft Fachwissen über MLOps-Praktiken.
Viele moderne Deep Learning (DL) -Frameworks, darunter PyTorch(PyTorch official site) und TensorFlow(TensorFlow official site), bieten Funktionen oder können zur Implementierung von SSL-Algorithmen angepasst werden. Bibliotheken wie Scikit-learn bieten einige SSL-Methoden. Plattformen wie Ultralytics HUB rationalisieren den Prozess, indem sie die Verwaltung von Datensätzen(Ultralytics HUB Datasets documentation) erleichtern, die Mischungen aus beschrifteten und unbeschrifteten Daten enthalten können, und das Training(Ultralytics HUB Cloud Training) und den Einsatz(model deployment options guide) von Modellen vereinfachen, die für die Nutzung solcher Datenstrukturen konzipiert sind. Die Forschung im Bereich SSL entwickelt sich ständig weiter, und Beiträge werden häufig auf großen KI-Konferenzen wie NeurIPS und ICML präsentiert.