Glossar

Vektor-Datenbank

Entdecke, wie Vektordatenbanken die KI revolutionieren, indem sie effiziente Ähnlichkeitssuche, semantische Suche und Anomalieerkennung für intelligente Systeme ermöglichen.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Eine Vektordatenbank ist ein spezieller Datenbanktyp, der für die Speicherung, Verwaltung und Abfrage hochdimensionaler Vektoren, oft auch als Einbettungen bezeichnet, entwickelt wurde. Im Zusammenhang mit künstlicher Intelligenz (KI) und maschinellem Lernen (ML) sind diese Vektoren numerische Darstellungen von unstrukturierten Daten wie Text, Bildern, Audio und Video, die von Deep-Learning-Modellen (DL) erzeugt werden. Im Gegensatz zu herkömmlichen Datenbanken, die strukturierte Daten und exakte Übereinstimmungen verarbeiten können, sind Vektordatenbanken für die Ähnlichkeitssuche optimiert und ermöglichen es Anwendungen, Elemente auf der Grundlage von konzeptioneller oder semantischer Nähe und nicht auf der Grundlage von Schlüsselwörtern zu finden. Diese Fähigkeit ist grundlegend für viele moderne KI-gesteuerte Funktionen.

Kernkonzepte und Funktionsweise

Vektordatenbanken funktionieren nach dem Prinzip der Vektorsuche, bei der Vektoren in der Datenbank gefunden werden, die einem bestimmten Abfragevektor "am nächsten" sind. Diese Nähe wird in der Regel mit Abstandsmetriken wie der Cosinus- oder der Euklidischen Distanz gemessen. Der zentrale Arbeitsablauf umfasst:

  1. Erzeugung von Einbettungen: Daten (z. B. Text, Bilder) werden mithilfe eines Einbettungsmodells (z. B. BERT für Text) in Vektoren umgewandelt. Ultralytics YOLO Modell für Bilder). Diese Vektoren erfassen die semantische Essenz der Daten in einem hochdimensionalen Raum.
  2. Indizierung: Die erzeugten Vektoren werden in der Vektordatenbank gespeichert. Um ein schnelles Auffinden zu ermöglichen, verwendet die Datenbank spezielle Indexierungsalgorithmen, vor allem ANN-Suchtechniken (Approximate Nearest Neighbor) wie HNSW (Hierarchical Navigable Small World) oder IVF (Inverted File Index). Diese Indizes ermöglichen eine schnelle Ähnlichkeitssuche selbst über Milliarden von Vektoren hinweg und tauschen perfekte Genauigkeit gegen erhebliche Geschwindigkeitsvorteile, was für Echtzeit-Inferenz entscheidend ist. Beliebte ANN-Bibliotheken sind FAISS und ScaNN.
  3. Abfragen: Wenn eine Abfrage (die ebenfalls in einen Vektor umgewandelt wird) eingeht, nutzt die Datenbank ihre Indizes, um effizient die Vektoren zu finden und zurückzugeben, die dem Abfragevektor auf der Grundlage der gewählten Distanzmetrik am ähnlichsten sind.

Vektordatenbanken vs. traditionelle Datenbanken

Herkömmliche Datenbanken (wie SQL- oder NoSQL-Datenbanken) sind für strukturierte oder halbstrukturierte Daten konzipiert und beruhen auf dem exakten Abgleich mit standardmäßigen Datenbank-Indexierungsmethoden (z. B. B-Bäumen). Sie sind von Natur aus nicht für die Ähnlichkeitssuche geeignet, die für unstrukturierte, als Vektoren dargestellte Daten erforderlich ist.

Die wichtigsten Unterschiede sind:

  • Datentyp: Traditionelle Datenbanken verarbeiten alphanumerische Daten, JSON usw. Vektordatenbanken verarbeiten hochdimensionale numerische Vektoren.
  • Abfragetyp: Traditionelle Datenbanken führen exakte Übereinstimmungen, Bereichsabfragen oder Stichwortsuchen durch. Vektordatenbanken führen Ähnlichkeitssuchen durch (Suche nach dem nächsten Nachbarn).
  • Indizierung: Traditionelle Datenbanken verwenden Indizes wie B-Bäume oder Hash-Indizes. Vektordatenbanken verwenden ANN-Indizes.

Anwendungen in KI und maschinellem Lernen

Vektordatenbanken sind das Rückgrat für zahlreiche KI-Anwendungen:

  • Semantische Suche: Ermöglicht es Suchmaschinen oder internen Wissensdatenbanken, Ergebnisse auf der Grundlage von Bedeutungen und nicht nur von Schlüsselwörtern zu finden. Eine Suche nach "gesunden Ideen für das Mittagessen" könnte zum Beispiel Rezepte für Salate und Getreidegerichte liefern, auch wenn sie nicht genau die Suchbegriffe enthalten.
  • Empfehlungssysteme: Auf Plattformen wie Netflix oder Spotify werden auf der Grundlage von eingebetteten Inhalten und Nutzerprofilen Filme oder Songs vorgeschlagen, die denjenigen ähneln, die einem Nutzer zuvor gefallen haben.
  • Bilderkennung und visuelle Suche: Ermöglicht es Nutzern, ähnliche Bilder zu finden(umgekehrte Bildersuche), oder ermöglicht die Produktfindung im E-Commerce durch das Hochladen eines Bildes. Dies ist eine der wichtigsten Anwendungen im Bereich Computer Vision (CV). Plattformen wie Ultralytics HUB könnten Vektordatenbanken für die Verwaltung und Suche in großen visuellen Datensätzen nutzen.
  • Natürliche Sprachverarbeitung (NLP): Unterstützung von Anwendungen wie Frage-Antwort-Systemen, Chatbots und Dokumenten-Clustering durch das Verstehen der Textsemantik.
  • Retrieval-Augmented Generation (RAG): Verbesserung von Large Language Models (LLMs) durch den Abruf relevanter, aktueller Informationen aus einer Vektordatenbank, um die Antworten des Modells auf faktische Daten zu stützen und Halluzinationen zu reduzieren.
  • Anomalie-Erkennung: Identifizierung ungewöhnlicher Datenpunkte (Vektoren), die weit entfernt von dichten Clustern im Vektorraum liegen, nützlich für die Betrugserkennung oder Systemüberwachung.
  • Tools zur Datenexploration: Tools wie Ultralytics Explorer nutzen Einbettungen, um große Datensätze zu visualisieren und zu verstehen, indem sie ähnliche Datenpunkte zusammenfassen.

Beliebte Vektordatenbanken

Es gibt verschiedene Open-Source- und kommerzielle Vektordatenbanken, z. B:

  • Pinecone: Ein beliebter verwalteter Vektordatenbankdienst.
  • Milvus: Eine Open-Source-Vektordatenbank, die auf Skalierbarkeit ausgelegt ist.
  • Weaviate: Eine quelloffene, KI-native Vektordatenbank mit Graphenfunktionen.
  • Chroma DB: Eine Open-Source-Embedding-Datenbank, die sich auf die Erfahrung der Entwickler konzentriert.
  • Qdrant: Eine Open-Source-Vektordatenbank und Ähnlichkeitssuchmaschine.

Der Aufstieg der Vektordatenbanken spiegelt die zunehmende Bedeutung von Einbettungen und Ähnlichkeitssuche bei der Entwicklung anspruchsvoller KI-Anwendungen wider und treibt das Wachstum des Marktes für Vektordatenbanken deutlich voran. Sie sind eine wichtige Infrastrukturkomponente, um die Erkenntnisse moderner maschineller Lernmodelle effektiv zu nutzen.

Alles lesen