Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Einbettungen

Erfahren Sie, was Embeddings sind und wie sie KI antreiben, indem sie semantische Beziehungen in Daten für NLP, Empfehlungen und Computer Vision erfassen.

Einbettungen sind dichte, niedrigdimensionale, kontinuierliche Vektordarstellungen diskreter Variablen, die als grundlegender Übersetzer zwischen menschlichen Daten und Maschinenlogik dienen. Im Bereich der Künstlichen Intelligenz (KI) können Computer unübersichtliche, unstrukturierte Daten wie Text, Bilder oder Audio nicht intuitiv verstehen. Embeddings lösen dieses Problem, indem sie diese Eingaben in Listen von reellen Zahlen umwandeln, die als Vektoren bezeichnet werden und in einem hochdimensionalen mathematischen Raum existieren. Im Gegensatz zu herkömmlichen Kodierungen, die einem Objekt möglicherweise nur eine zufällige ID zuweisen, werden Embeddings durch Training gelernt, wodurch sichergestellt wird, dass semantisch ähnliche Elemente – wie die Wörter „König” und „Königin” oder Bilder von zwei verschiedenen Katzen – im Vektorraum nahe beieinander positioniert werden.

Wie Einbettungen funktionieren

Die Erstellung einer Einbettung umfasst die Eingabe von Rohdaten in ein neuronales Netzwerk, das für die Merkmalsextraktion entwickelt wurde. Während des Trainings lernt das Modell , die wesentlichen Merkmale der Eingabe in eine kompakte numerische Form zu komprimieren. Ein Computer-Vision-Modell (CV), das beispielsweise ein Foto analysiert, sieht nicht nur Pixel, sondern ordnet Formen, Texturen und Farben einer bestimmten Koordinate in einem mehrdimensionalen Diagramm zu. Bei der Messung der Ähnlichkeit berechnen Systeme den Abstand zwischen diesen Koordinaten unter Verwendung von Metriken wie der Kosinusähnlichkeit oder dem euklidischen Abstand. Diese mathematische Nähe ermöglicht es Algorithmen, komplexe Aufgaben wie Klassifizierung und Clustering mit hoher Effizienz durchzuführen.

Anwendungsfälle in der Praxis

Einbettungen fungieren als Motor für viele intelligente Funktionen, die in modernen Softwareprodukten verwendet werden.

  • Semantische Suche: Herkömmliche Suchmaschinen basieren oft auf der exakten Übereinstimmung von Schlüsselwörtern, was fehlschlägt, wenn ein Benutzer nach „Auto” sucht, das Dokument jedoch „Wagen” enthält. Einbettungen erfassen die Bedeutung hinter den Wörtern. Durch die Darstellung der Suchanfrage und der Datenbankdokumente als Vektoren kann das System Ergebnisse abrufen, die der Absicht des Benutzers entsprechen, auch wenn die spezifischen Wörter unterschiedlich sind.
  • Empfehlungssysteme: Streaming-Dienste und E-Commerce-Websites verwenden Einbettungen, um die Benutzererfahrung zu personalisieren. Wenn ein Benutzer einen Science-Fiction-Film ansieht, identifiziert das System den Einbettungsvektor dieses Films und sucht in der Datenbank nach anderen Filmen mit ähnlichen Vektoren . Dies ermöglicht genaue Vorschläge, die auf der Ähnlichkeit der Inhalte basieren und nicht nur auf manuellen Tags oder Kategorien.
  • Zero-Shot-Lernen: Fortgeschrittene Modelle verwenden gemeinsame Einbettungen, um verschiedene Modalitäten wie Text und Bilder zu verknüpfen. Dadurch kann ein System Objekte erkennen, die es während des Trainings nie explizit gesehen hat, indem es die Bildeinbettung mit der Texteinbettung des Objektnamens verknüpft.

Embeddings mit Python generieren

Modernste Modelle wie YOLO26 kann verwendet werden, um robuste Bild-Embeddings effizient zu generieren. Das folgende Beispiel zeigt, wie man einen Merkmalsvektor aus einem Bild extrahiert unter Verwendung der ultralytics Python .

from ultralytics import YOLO

# Load a pre-trained YOLO26 classification model
model = YOLO("yolo26n-cls.pt")

# Generate embeddings for an image
# The embed() method returns the feature vector representing the image content
embedding_vector = model.embed("https://ultralytics.com/images/bus.jpg")

# Print the shape of the embedding (e.g., a vector of length 1280)
print(f"Embedding shape: {embedding_vector[0].shape}")

Embeddings vs. verwandte Konzepte

Um KI-Lösungen effektiv zu implementieren, ist es hilfreich, Einbettungen von eng verwandten Fachbegriffen zu unterscheiden.

  • Einbettungen vs. Vektorsuche: Die Einbettung ist die Datendarstellung selbst (die Liste der Zahlen). Die Vektorsuche ist der nachfolgende Prozess der Abfrage einer Datenbank, um die nächsten Nachbarn dieser Einbettung zu finden. Spezielle Tools, die als Vektordatenbank bezeichnet werden, werden häufig verwendet, um diese Einbettungen in großem Maßstab zu speichern und zu durchsuchen.
  • Einbettungen vs. Tokenisierung: In der natürlichen Sprachverarbeitung (Natural Language Processing, NLP) ist die Tokenisierung der vorbereitende Schritt, bei dem Text in kleinere Einheiten (Token) zerlegt wird. Diese Token werden dann Einbettungen zugeordnet. Die Tokenisierung bereitet also die Daten vor, während die Einbettungen die Bedeutung der Daten darstellen.
  • Embeddings vs. Deep Learning: Deep Learning ist der umfassendere Bereich des maschinellen Lernens, der auf neuronalen Netzen basiert. Embeddings sind eine spezifische Ausgabe oder Schicht innerhalb einer Deep-Learning-Architektur und dienen oft als Brücke zwischen den Rohdaten und den Entscheidungsschichten des Modells.

Entwickler, die den Lebenszyklus ihrer Datensätze verwalten möchten, einschließlich Annotation und Modelltraining zur Generierung benutzerdefinierter Einbettungen, können die Ultralytics nutzen. Dieses umfassende Tool vereinfacht den Workflow vom Datenmanagement bis zur Bereitstellung und stellt sicher, dass die Einbettungen, die Ihre Anwendungen antreiben, aus hochwertigen, gut kuratierten Daten stammen. Unabhängig davon, ob Sie Frameworks wie PyTorch oder TensorFlowverwenden, ist die Beherrschung von Einbettungen ein entscheidender Schritt beim Aufbau anspruchsvoller Mustererkennungssysteme.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten