Cơ sở dữ liệu vectơ là một loại cơ sở dữ liệu chuyên biệt được thiết kế để lưu trữ, quản lý và truy vấn các vectơ có chiều cao, thường được gọi là nhúng . Trong bối cảnh Trí tuệ nhân tạo (AI) và Học máy (ML) , các vectơ này là các biểu diễn số của dữ liệu phi cấu trúc như văn bản, hình ảnh, âm thanh và video, được tạo ra bởi các mô hình học sâu (DL) . Không giống như các cơ sở dữ liệu truyền thống vượt trội trong việc xử lý dữ liệu có cấu trúc và các kết quả khớp chính xác, cơ sở dữ liệu vectơ được tối ưu hóa cho các tìm kiếm tương tự, cho phép các ứng dụng tìm các mục dựa trên sự gần gũi về mặt khái niệm hoặc ngữ nghĩa thay vì khớp từ khóa. Khả năng này là cơ bản đối với nhiều tính năng hiện đại do AI điều khiển.
Các khái niệm cốt lõi và chức năng
Cơ sở dữ liệu vectơ hoạt động theo nguyên tắc tìm kiếm vectơ , bao gồm việc tìm các vectơ trong cơ sở dữ liệu "gần nhất" với một vectơ truy vấn nhất định. Độ gần này thường được đo bằng các số liệu khoảng cách như Độ tương tự Cosine hoặc Khoảng cách Euclidean . Quy trình làm việc cốt lõi bao gồm:
- Tạo nhúng: Dữ liệu (ví dụ: văn bản, hình ảnh) được chuyển đổi thành các vectơ bằng cách sử dụng mô hình nhúng (như BERT cho văn bản hoặc mô hình YOLO Ultralytics cho hình ảnh). Các vectơ này nắm bắt được bản chất ngữ nghĩa của dữ liệu trong không gian nhiều chiều .
- Lập chỉ mục: Các vectơ được tạo ra được lưu trữ trong cơ sở dữ liệu vectơ. Để có thể truy xuất nhanh, cơ sở dữ liệu sử dụng các thuật toán lập chỉ mục chuyên biệt, chủ yếu là các kỹ thuật tìm kiếm Xấp xỉ Láng giềng gần nhất (ANN) như HNSW (Hierarchical Navigable Small World) hoặc IVF (Inverted File Index). Các chỉ mục này cho phép tìm kiếm sự tương đồng nhanh chóng ngay cả trên hàng tỷ vectơ, đánh đổi độ chính xác hoàn hảo để tăng tốc độ đáng kể, điều này rất quan trọng đối với suy luận theo thời gian thực . Các thư viện ANN phổ biến bao gồm FAISS và ScaNN .
- Truy vấn: Khi nhận được truy vấn (cũng được chuyển đổi thành vectơ), cơ sở dữ liệu sẽ sử dụng chỉ mục của nó để tìm và trả về các vectơ giống nhất với vectơ truy vấn dựa trên số liệu khoảng cách đã chọn.
Cơ sở dữ liệu Vector so với Cơ sở dữ liệu truyền thống
Cơ sở dữ liệu truyền thống (như cơ sở dữ liệu SQL hoặc NoSQL) được thiết kế cho dữ liệu có cấu trúc hoặc bán cấu trúc và dựa vào việc khớp chính xác bằng các phương pháp lập chỉ mục cơ sở dữ liệu chuẩn (ví dụ: cây B). Chúng không được trang bị sẵn để xử lý tìm kiếm tương tự cần thiết cho dữ liệu phi cấu trúc được biểu diễn dưới dạng vectơ.
Những điểm khác biệt chính bao gồm:
- Kiểu dữ liệu: Cơ sở dữ liệu truyền thống xử lý dữ liệu chữ số, JSON, v.v. Cơ sở dữ liệu vectơ xử lý các vectơ số có nhiều chiều.
- Kiểu truy vấn: Cơ sở dữ liệu truyền thống thực hiện các phép khớp chính xác, truy vấn phạm vi hoặc tìm kiếm từ khóa. Cơ sở dữ liệu vector thực hiện tìm kiếm tương tự (tìm kiếm lân cận gần nhất).
- Lập chỉ mục: Cơ sở dữ liệu truyền thống sử dụng các chỉ mục như B-trees hoặc chỉ mục băm. Cơ sở dữ liệu vector sử dụng chỉ mục ANN.
Ứng dụng trong AI và Học máy
Cơ sở dữ liệu vector là xương sống cho nhiều ứng dụng AI:
- Tìm kiếm ngữ nghĩa : Cho phép các công cụ tìm kiếm hoặc cơ sở tri thức nội bộ tìm kiếm kết quả dựa trên ý nghĩa thay vì chỉ từ khóa. Ví dụ: tìm kiếm "ý tưởng bữa trưa lành mạnh" có thể trả về công thức nấu salad và bát ngũ cốc, ngay cả khi chúng không chứa các thuật ngữ tìm kiếm chính xác.
- Hệ thống đề xuất : Cung cấp năng lượng cho các nền tảng như Netflix hoặc Spotify để đề xuất các bộ phim hoặc bài hát tương tự như những gì người dùng đã thích trước đó, dựa trên nội dung nhúng và hồ sơ người dùng.
- Nhận dạng hình ảnh và tìm kiếm trực quan: Cho phép người dùng tìm kiếm hình ảnh tương tự ( tìm kiếm hình ảnh ngược ) hoặc cho phép khám phá sản phẩm trong thương mại điện tử bằng cách tải lên hình ảnh. Đây là ứng dụng chính trong thị giác máy tính (CV) . Các nền tảng như Ultralytics HUB có thể tận dụng cơ sở dữ liệu vector để quản lý và tìm kiếm qua các tập dữ liệu trực quan lớn.
- Xử lý ngôn ngữ tự nhiên (NLP) : Hỗ trợ các ứng dụng như hệ thống trả lời câu hỏi, chatbot và phân cụ tài liệu bằng cách hiểu ngữ nghĩa văn bản.
- Thế hệ tăng cường truy xuất (RAG) : Nâng cao các mô hình ngôn ngữ lớn (LLM) bằng cách truy xuất thông tin có liên quan, cập nhật từ cơ sở dữ liệu vectơ để đưa phản ứng của mô hình vào dữ liệu thực tế, giảm ảo giác .
- Phát hiện bất thường : Xác định các điểm dữ liệu bất thường (vectơ) nằm xa các cụm dày đặc trong không gian vectơ, hữu ích cho việc phát hiện gian lận hoặc giám sát hệ thống.
- Công cụ khám phá dữ liệu : Các công cụ như Ultralytics Explorer sử dụng nhúng để giúp người dùng trực quan hóa và hiểu các tập dữ liệu lớn bằng cách nhóm các điểm dữ liệu tương tự lại với nhau.
Cơ sở dữ liệu Vector phổ biến
Có một số cơ sở dữ liệu vectơ mã nguồn mở và thương mại, bao gồm:
- Pinecone : Một dịch vụ cơ sở dữ liệu vector được quản lý phổ biến.
- Milvus : Cơ sở dữ liệu vector nguồn mở được thiết kế để có khả năng mở rộng.
- Weaviate : Cơ sở dữ liệu vectơ mã nguồn mở, ứng dụng AI với khả năng tạo đồ thị.
- Chroma DB : Cơ sở dữ liệu nhúng mã nguồn mở tập trung vào trải nghiệm của nhà phát triển.
- Qdrant : Cơ sở dữ liệu vectơ mã nguồn mở và công cụ tìm kiếm điểm tương đồng.
Sự gia tăng của cơ sở dữ liệu vector phản ánh tầm quan trọng ngày càng tăng của nhúng và tìm kiếm sự tương đồng trong việc xây dựng các ứng dụng AI tinh vi, thúc đẩy sự tăng trưởng đáng kể trong thị trường cơ sở dữ liệu vector . Chúng là thành phần cơ sở hạ tầng quan trọng để tận dụng hiệu quả các thông tin chi tiết được thu thập bởi các mô hình học máy hiện đại.