Glossar

Einbettungen

Lerne, was Einbettungen sind und wie sie KI unterstützen, indem sie semantische Beziehungen in Daten für NLP, Empfehlungen und Computer Vision erfassen.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Im Bereich des maschinellen Lernens (ML) und der künstlichen Intelligenz (KI) sind Einbettungen eine grundlegende Technik zur Darstellung komplexer Daten - wie Wörter, Sätze, Bilder oder andere Elemente - als dichte numerische Vektoren in einem mehrdimensionalen Raum. Diese Umwandlung wird aus den Daten erlernt und ermöglicht es den Algorithmen, die semantische Bedeutung, den Kontext oder die wesentlichen Merkmale der Eingaben zu erfassen. Der Hauptvorteil besteht darin, dass Elemente, die aufgrund der Trainingsdaten als ähnlich eingestuft werden, auf nahegelegene Punkte in diesem "Einbettungsraum" abgebildet werden, so dass Maschinen komplexe Beziehungen und Muster viel besser verstehen können als herkömmliche spärliche Darstellungen wie die One-Hot-Codierung.

Was sind Einbettungen?

Einbettungen sind gelernte, relativ niedrigdimensionale Vektordarstellungen von diskreten Variablen (wie Wörtern) oder komplexen Objekten (wie Bildern oder Nutzerprofilen). Im Gegensatz zu Methoden wie der One-Hot-Codierung, die sehr hochdimensionale, spärliche Vektoren erzeugen, bei denen jede Dimension einem einzelnen Objekt entspricht und keine Informationen über Beziehungen enthält, sind Einbettungen dichte Vektoren (in der Regel mit Dutzenden bis Tausenden von Dimensionen), bei denen jede Dimension zur Darstellung der Eigenschaften des Objekts beiträgt. Entscheidend ist, dass die Position dieser Vektoren im Einbettungsraum die semantischen Beziehungen erfasst. Bei Worteinbettungen haben Wörter mit ähnlicher Bedeutung oder in ähnlichem Kontext wie "König" und "Königin" oder "laufen" und "rennen" Vektoren, die mathematisch nahe beieinander liegen (z. B. mithilfe der Cosinus-Ähnlichkeit). Diese Nähe spiegelt die semantische Ähnlichkeit wider, die aus den Daten gelernt wurde.

Wie Einbettungen funktionieren

Einbettungen werden in der Regel mithilfe von neuronalen Netzwerkmodellen (NN) erstellt, die mit Techniken wie dem selbstüberwachten Lernen auf großen Datensätzen trainiert werden. Eine gängige Technik für Worteinbettungen, wie z. B. Word2Vec, besteht darin, ein Modell zu trainieren, das ein Wort auf der Grundlage seiner umgebenden Wörter (seines Kontexts) in einem umfangreichen Textkorpus vorhersagt. Während dieses Trainingsprozesses passt das Netzwerk seine internen Parameter, einschließlich der Einbettungsvektoren für jedes Wort, an, um Vorhersagefehler durch Methoden wie Backpropagation zu minimieren. Die resultierenden Vektoren kodieren implizit syntaktische und semantische Informationen. Die Anzahl der Dimensionen im Einbettungsraum ist ein entscheidender Hyperparameter, der die Fähigkeit des Modells, Details zu erfassen, gegen die Rechenkosten und das Risiko einer Überanpassung abwägt. Die Visualisierung dieser hochdimensionalen Datenräume erfordert oft Dimensionalitätsreduktionstechniken wie t-SNE oder PCA, die mit Tools wie dem TensorFlow Projector erforscht werden können.

Anwendungen von Einbettungen

Einbettungen sind entscheidende Komponenten in vielen modernen KI-Systemen in verschiedenen Bereichen:

  • Natürliche Sprachverarbeitung (NLP): Einbettungen stellen Wörter, Sätze oder ganze Dokumente dar. Modelle wie BERT und Transformer-Architekturen stützen sich stark auf Einbettungen, um Sprachnuancen für Aufgaben wie maschinelle Übersetzung, Stimmungsanalyse, Fragenbeantwortung und effektive semantische Suche zu verstehen. Beispiel: Ein Chatbot für den Kundensupport nutzt Satzeinbettungen, um die relevanteste Antwort in seiner Wissensdatenbank zu finden, auch wenn die Anfrage des Nutzers nicht die genauen Schlüsselwörter enthält.
  • Empfehlungssysteme: Einbettungen können Nutzer/innen und Objekte (wie Filme, Produkte oder Artikel) repräsentieren. Durch das Erlernen von Einbettungen, so dass die Nutzer/innen und die Artikel, die sie mögen, im Einbettungsraum nahe beieinander liegen, können Systeme neue Artikel empfehlen, die denen ähnlich sind, mit denen ein/e Nutzer/in zuvor interagiert hat oder die von ähnlichen Nutzer/innen gemocht wurden(kollaboratives Filtern). Unternehmen wie Netflix und Amazon nutzen dies ausgiebig.
  • Computer Vision (CV): Bilder oder Bildausschnitte können in Einbettungen umgewandelt werden, die visuelle Merkmale erfassen. Dies ist grundlegend für Aufgaben wie die Bildsuche (Auffinden visuell ähnlicher Bilder), die Bildklassifizierung und dient als Grundlage für komplexere Aufgaben wie die Objekterkennung und die Bildsegmentierung, die von Modellen wie Ultralytics YOLO. Beispiel: Eine E-Commerce-Plattform nutzt Bildeinbettungen, um es Nutzern zu ermöglichen, ein Foto eines Kleidungsstücks hochzuladen und ähnliche Produkte in ihrem Katalog zu finden. Plattformen wie Ultralytics HUB erleichtern das Training und den Einsatz solcher Modelle.
  • Graph Analytics: Einbettungen können Knoten und Kanten in Graphen darstellen und so die Netzwerkstruktur und die Beziehungen zwischen den Knoten für Aufgaben wie Link-Vorhersage oder Community-Erkennung erfassen, wobei häufig Graph Neural Networks (GNNs) verwendet werden.

Einbettungen vs. verwandte Konzepte

Es ist hilfreich, Einbettungen von verwandten Begriffen zu unterscheiden:

  • Embeddings vs. Merkmalsextraktion: Embeddings sind eine ausgefeilte, oft automatisierte Form der Merkmalsextraktion, die durch Deep Learning erreicht wird. Während bei der traditionellen Merkmalstechnik Merkmale manuell definiert werden (z. B. Farbhistogramme für Bilder), lernen Embeddings relevante Merkmale direkt aus den Daten während des Trainings.
  • Embeddings vs. Vektorsuche / Vektordatenbanken: Embeddings sind die Vektorrepräsentationen von Datenelementen. Bei der Vektorsuche wird eine Sammlung von Einbettungen abgefragt, um die Einbettungen zu finden, die einem Abfragevektor am ähnlichsten (am nächsten) sind. Dabei werden häufig ANN-Algorithmen (Approximate Nearest Neighbor) verwendet, um die Effizienz zu erhöhen. Vektordatenbanken (wie Pinecone oder Milvus) sind spezielle Datenbanken, die für die Speicherung, Indizierung und schnelle Vektorsuche in großen Mengen von Einbettungen optimiert sind.

Einbettungen bieten eine leistungsstarke Möglichkeit, Daten für Modelle des maschinellen Lernens darzustellen. Sie ermöglichen es ihnen, semantische Ähnlichkeiten und komplexe Muster in verschiedenen Datentypen zu verstehen, von Text bis zu Bildern. Sie sind ein Eckpfeiler für die Weiterentwicklung zahlreicher KI-Anwendungen und ein wesentlicher Bestandteil der Fähigkeiten moderner ML-Frameworks wie PyTorch und TensorFlow.

Alles lesen