Glossar

Vektor-Datenbank

Entdecken Sie, wie Vektordatenbanken die KI revolutionieren, indem sie effiziente Ähnlichkeitssuche, semantische Suche und Anomalieerkennung für intelligente Systeme ermöglichen.

Eine Vektordatenbank ist ein spezieller Datenbanktyp, der für die Speicherung, Verwaltung und Suche in hochdimensionalen Daten, so genannten Vektoreinbettungen, konzipiert ist. Im Gegensatz zu herkömmlichen relationalen Datenbanken, die für strukturierte Daten und exakte Übereinstimmungen optimiert sind, zeichnen sich Vektordatenbanken dadurch aus, dass sie Elemente auf der Grundlage ihrer Ähnlichkeit finden. Diese Fähigkeit ist von grundlegender Bedeutung für eine Vielzahl moderner KI-Anwendungen, von Empfehlungsmaschinen bis zur visuellen Suche, und macht sie zu einer entscheidenden Komponente der Infrastruktur für maschinelles Lernen. Sie dienen als Langzeitspeicher für KI-Modelle und ermöglichen es ihnen, die beim Training erlernten komplexen Muster zu nutzen.

So funktionieren Vektordatenbanken

Die Hauptfunktion einer Vektordatenbank ist die effiziente Durchführung einer Vektorsuche. Der Prozess beginnt damit, dass unstrukturierte Daten - z. B. ein Bild, ein Textblock oder ein Audioclip - durch ein Deep-Learning-Modell geleitet werden, um eine numerische Darstellung zu erstellen, die als Vektoreinbettung bezeichnet wird. Diese Einbettungen erfassen die semantische Bedeutung der ursprünglichen Daten.

Die Vektordatenbank speichert dann diese Einbettungen und indexiert sie mit Hilfe spezieller Algorithmen. Bei einer Abfrage (z. B. einer Suche mit einem Bild) werden die Abfragedaten ebenfalls in einen Vektor umgewandelt. Die Datenbank vergleicht dann diesen Abfragevektor mit den gespeicherten Vektoren unter Verwendung von Ähnlichkeitsmetriken wie Cosinus-Ähnlichkeit oder Euklidischer Abstand, um die "nächsten" oder ähnlichsten Elemente zu finden. Um dies in großem Maßstab mit Millionen oder Milliarden von Vektoren durchzuführen, werden häufig hocheffiziente ANN-Algorithmen (Approximate Nearest Neighbor) eingesetzt.

Anwendungen in der realen Welt

Vektordatenbanken ermöglichen viele intelligente Funktionen, mit denen die Benutzer täglich interagieren.

  1. Visuelle Suche im elektronischen Geschäftsverkehr: Ein Benutzer kann ein Foto von einem Produkt hochladen, das ihm gefällt. Ein Computer-Vision-Modell, z. B. das YOLO11-Modell von Ultralytics, erzeugt eine Einbettung für das Bild. Diese Einbettung wird zur Abfrage der Vektordatenbank der E-Commerce-Website verwendet, die Einbettungen für den gesamten Produktkatalog enthält. Die Datenbank gibt die ähnlichsten Vektoren zurück, so dass die Website visuell identische oder stilistisch verwandte Produkte anzeigen kann - eine wichtige Funktion der KI für den Einzelhandel.
  2. Semantische Suche nach Dokumenten: Ein Unternehmen kann Einbettungen für alle internen Dokumente erstellen, z. B. für Berichte und Support-Tickets. Ein Mitarbeiter kann dann mit einer natürlichsprachlichen Frage wie "Wie hoch waren unsere Gewinne im letzten Quartal?" anstelle von spezifischen Schlüsselwörtern suchen. Das Modell für die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) wandelt diese Frage in eine Einbettung um, und die Vektordatenbank findet die Dokumente, deren Einbettungen semantisch am nächsten liegen, und liefert relevante Informationen, auch wenn die genaue Formulierung nicht übereinstimmt. Dies ist eine Kernkomponente von RAG-Systemen (retrieval-augmented generation).

Vektordatenbanken im Vergleich zu verwandten Konzepten

Es ist hilfreich, Vektordatenbanken von eng verwandten Begriffen zu unterscheiden:

  • Einbettungen: Einbettungen sind die Vektordarstellungen von Daten. Die Vektordatenbank ist das spezialisierte System, das zur effizienten Speicherung, Indexierung und Abfrage dieser Einbettungen entwickelt wurde. Betrachten Sie Einbettungen als Bücher und die Vektordatenbank als intelligente Bibliothek, die sie organisiert.
  • Vektorsuche: Bei der Vektorsuche geht es darum, die ähnlichsten Vektoren in einem Datensatz zu finden. Eine Vektordatenbank ist die zugrundeliegende Technologie, die diesen Prozess schnell und skalierbar macht, insbesondere für Echtzeit-Inferenzen.

Diese Komponenten werden als Teil eines vollständigen MLOps-Workflows verwaltet, der häufig durch Plattformen wie Ultralytics HUB für das End-to-End-Modell- und Datensatzmanagement unterstützt wird.

Beliebte Vektordatenbanken

Es gibt mehrere Open-Source- und kommerzielle Vektordatenbanken mit unterschiedlichen Stärken in Bezug auf Skalierbarkeit, Bereitstellung und Funktionen. Einige der am häufigsten verwendeten sind:

  • Pinecone: Ein beliebter, vollständig verwalteter Vektordatenbankdienst.
  • Milvus: Eine Open-Source-Vektordatenbank, die auf hohe Leistung und Skalierbarkeit ausgelegt ist.
  • Weaviate: Eine Open-Source-Datenbank für künstliche Intelligenz mit Graph-Funktionen.
  • Chroma DB: Eine Open-Source-Embedding-Datenbank, die sich auf Einfachheit und Entwicklerfreundlichkeit konzentriert.
  • Qdrant: Eine Open-Source-Vektordatenbank und Ähnlichkeitssuchmaschine, geschrieben in Rust für Leistung und Sicherheit.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert