Entdecken Sie unüberwachtes Lernen, um verborgene Muster in unbeschrifteten Daten aufzudecken. Erfahren Sie mehr über Clustering, Anomalieerkennung und wie diese Verfahren moderne KI-Lösungen unterstützen.
Unüberwachtes Lernen ist eine Art des maschinellen Lernens, bei der ein Algorithmus ohne menschliches Zutun Muster aus nicht gekennzeichneten Daten lernt . Im Gegensatz zum überwachten Lernen, das sich auf gekennzeichnete Eingabe-Ausgabe-Paare stützt, um ein Modell zu trainieren, befasst sich das unüberwachte Lernen mit Daten, die keine historischen Kennzeichnungen aufweisen. Das System versucht im Wesentlichen, sich selbst zu trainieren , indem es verborgene Strukturen, Muster oder Beziehungen innerhalb der Eingabedaten entdeckt. Dieser Ansatz ist besonders wertvoll, da die überwiegende Mehrheit der heute generierten Daten – Bilder, Videos, Texte und Sensorprotokolle – unstrukturiert und unbeschriftet ist.
In unbeaufsichtigten Szenarien wird der Algorithmus sich selbst überlassen, um interessante Strukturen in den Daten zu entdecken. Das Ziel besteht oft darin, die zugrunde liegende Verteilung der Daten zu modellieren oder mehr über die Daten selbst zu erfahren. Da während des Trainings keine „richtigen Antworten” bereitgestellt werden, kann das Modell nicht im herkömmlichen Sinne auf seine Genauigkeit hin bewertet werden . Stattdessen wird die Leistung oft daran gemessen, wie gut das Modell die Dimensionalität reduziert oder ähnliche Datenpunkte zusammenfasst .
Diese Methodik spiegelt wider, wie Menschen oft neue Konzepte lernen. Ein Kind kann beispielsweise zwischen Hunden und Katzen unterscheiden, indem es ihre unterschiedlichen Formen und Verhaltensweisen beobachtet, ohne zunächst unbedingt die Namen „Hund” und „Katze” zu kennen. In ähnlicher Weise gruppieren unbeaufsichtigte Algorithmen Informationen auf der Grundlage inhärenter Ähnlichkeiten. Diese Fähigkeit ist für die Entwicklung der künstlichen allgemeinen Intelligenz (AGI) von grundlegender Bedeutung, da sie es Systemen ermöglicht, sich ohne ständige menschliche Aufsicht an neue Umgebungen anzupassen.
Das unüberwachte Lernen umfasst mehrere unterschiedliche Techniken, die jeweils für verschiedene Arten von Datenanalyseproblemen geeignet sind :
Es ist wichtig, zwischen unüberwachtem Lernen und überwachtem Lernen zu unterscheiden. Der Hauptunterschied liegt in den verwendeten Daten. Überwachtes Lernen erfordert einen beschrifteten Datensatz, d. h. jedes Trainingsbeispiel wird mit einer korrekten Ausgabe gepaart (z. B. ein Bild einer Katze mit der Beschriftung „Katze“). Das Modell lernt, Eingaben auf Ausgaben abzubilden, um Fehler zu minimieren.
Im Gegensatz dazu werden beim unüberwachten Lernen unbeschriftete Daten verwendet. Es gibt keine Rückkopplungsschleife, die dem Modell mitteilt, ob seine Ausgabe korrekt ist. Es gibt einen Mittelweg, das sogenannte teilüberwachtes Lernen, bei dem eine kleine Menge beschrifteter Daten mit einer großen Menge unbeschrifteter Daten kombiniert wird, um die Lerngenauigkeit zu verbessern. Diese Methode wird häufig verwendet, wenn das Beschriften von Daten teuer oder zeitaufwändig ist.
Unüberwachtes Lernen ist die Grundlage vieler Technologien, mit denen wir täglich in Berührung kommen. Hier sind zwei konkrete Beispiele:
Während Ultralytics YOLO26 ist in erster Linie ein Framework zur überwachten Objekterkennung
, doch in den Vorverarbeitungsschritten werden häufig unüberwachte Techniken verwendet, wie beispielsweise die Analyse von Ankerbox-Verteilungen
oder das Clustering von Datensatzmerkmalen. Nachfolgend finden Sie ein einfaches Beispiel mit sklearn zur Durchführung von K-Means-Clustering,
einer grundlegenden unüberwachten Technik.
import numpy as np
from sklearn.cluster import KMeans
# Generate synthetic data: 10 points with 2 features each
X = np.array([[1, 2], [1, 4], [1, 0], [10, 2], [10, 4], [10, 0]])
# Initialize KMeans with 2 clusters (k=2)
kmeans = KMeans(n_clusters=2, random_state=0, n_init="auto")
# Fit the model to the data (no labels provided!)
kmeans.fit(X)
# Predict which cluster each point belongs to
print(f"Labels: {kmeans.labels_}")
# Output will group the first 3 points together (0) and the last 3 together (1)
Modernes Deep Learning (DL) integriert zunehmend unüberwachte Prinzipien. Techniken wie selbstüberwachtes Lernen (Self-Supervised Learning, SSL) ermöglichen es Modellen, ihre eigenen Überwachungssignale aus den Daten zu generieren. Beispielsweise werden in der natürlichen Sprachverarbeitung (Natural Language Processing, NLP) Modelle wie GPT-4 mit riesigen Textmengen vortrainiert, um das nächste Wort in einem Satz vorherzusagen, wodurch sie effektiv die Struktur der Sprache ohne explizite Beschriftungen lernen.
In ähnlicher Weise werden in der Computervision (CV) Autoencoder verwendet, um effiziente Datenkodierungen zu erlernen. Diese neuronalen Netze komprimieren Bilder in eine niedrigere Dimension und rekonstruieren sie anschließend wieder. Dieser Prozess lehrt das Netzwerk die auffälligsten Merkmale der visuellen Daten, was für Aufgaben wie Bildrauschunterdrückung und generative Modellierung nützlich ist.
Für diejenigen, die Datensätze für das Training verwalten möchten, bietet Ultralytics Tools zur Visualisierung von Datenverteilungen, die dabei helfen können, Cluster oder Anomalien zu identifizieren, bevor der überwachte Trainingsprozess beginnt. Das Verständnis der Datenstruktur durch unüberwachtes Erkunden ist oft der erste Schritt zum Aufbau robuster KI-Lösungen.