Thuật ngữ

Cơ sở dữ liệu Vector

Khám phá cách cơ sở dữ liệu vector cách mạng hóa AI bằng cách cho phép tìm kiếm điểm tương đồng, tìm kiếm ngữ nghĩa và phát hiện bất thường hiệu quả cho các hệ thống thông minh.

Cơ sở dữ liệu vector là một loại cơ sở dữ liệu chuyên biệt được thiết kế để lưu trữ, quản lý và tìm kiếm dữ liệu đa chiều, được gọi là nhúng vector. Không giống như các cơ sở dữ liệu quan hệ truyền thống được tối ưu hóa cho dữ liệu có cấu trúc và khớp chính xác, cơ sở dữ liệu vector vượt trội trong việc tìm kiếm các mục dựa trên độ tương đồng của chúng. Khả năng này là nền tảng cho nhiều ứng dụng AI hiện đại, từ công cụ đề xuất đến tìm kiếm trực quan, khiến chúng trở thành một thành phần quan trọng trong cơ sở hạ tầng học máy . Chúng đóng vai trò là bộ nhớ dài hạn cho các mô hình AI, cho phép chúng tận dụng các mẫu phức tạp đã học được trong quá trình đào tạo.

Cơ sở dữ liệu Vector hoạt động như thế nào

Chức năng cốt lõi của cơ sở dữ liệu vector là thực hiện tìm kiếm vector một cách hiệu quả. Quá trình này bắt đầu khi dữ liệu phi cấu trúc—chẳng hạn như hình ảnh, khối văn bản hoặc đoạn âm thanh—được truyền qua một mô hình học sâu để tạo ra một biểu diễn số gọi là nhúng vector. Các nhúng này nắm bắt ý nghĩa ngữ nghĩa của dữ liệu gốc.

Cơ sở dữ liệu vector sau đó lưu trữ các nhúng này và lập chỉ mục chúng bằng các thuật toán chuyên biệt. Khi một truy vấn được thực hiện (ví dụ: tìm kiếm bằng hình ảnh), dữ liệu truy vấn cũng được chuyển đổi thành một vector. Sau đó, cơ sở dữ liệu so sánh vector truy vấn này với các vector đã lưu trữ bằng các phép đo tương đồng như Độ tương đồng Cosine hoặc Khoảng cách Euclidean để tìm các mục "gần nhất" hoặc tương tự nhất. Để thực hiện việc này ở quy mô lớn với hàng triệu hoặc hàng tỷ vector, chúng thường dựa vào các thuật toán Xấp xỉ Láng giềng Gần nhất (ANN) hiệu quả cao.

Ứng dụng trong thế giới thực

Cơ sở dữ liệu vector cung cấp nhiều tính năng thông minh mà người dùng tương tác hàng ngày.

  1. Tìm kiếm trực quan trong thương mại điện tử: Người dùng có thể tải lên ảnh sản phẩm họ thích. Một mô hình thị giác máy tính , chẳng hạn như mô hình Ultralytics YOLO11 , sẽ tạo ra một hình ảnh nhúng cho hình ảnh đó. Hình ảnh nhúng này được sử dụng để truy vấn cơ sở dữ liệu vector của trang web thương mại điện tử, nơi chứa các hình ảnh nhúng cho toàn bộ danh mục sản phẩm. Cơ sở dữ liệu trả về các vector tương tự nhất, cho phép trang web hiển thị các sản phẩm giống hệt nhau về mặt hình ảnh hoặc có phong cách tương tự, một tính năng quan trọng trong AI dành cho bán lẻ .
  2. Tìm kiếm ngữ nghĩa cho tài liệu: Một công ty có thể tạo nhúng cho tất cả tài liệu nội bộ, chẳng hạn như báo cáo và phiếu hỗ trợ. Sau đó, nhân viên có thể tìm kiếm bằng câu hỏi ngôn ngữ tự nhiên như "Lợi nhuận quý trước của chúng ta là bao nhiêu?" thay vì các từ khóa cụ thể. Mô hình Xử lý ngôn ngữ tự nhiên (NLP) chuyển đổi truy vấn này thành một nhúng, và cơ sở dữ liệu vector sẽ tìm các tài liệu có nhúng gần nhất về mặt ngữ nghĩa, cung cấp thông tin liên quan ngay cả khi cách diễn đạt chính xác không khớp. Đây là một thành phần cốt lõi của hệ thống tạo tăng cường truy xuất (RAG) .

Cơ sở dữ liệu Vector so với các khái niệm liên quan

Sẽ rất hữu ích khi phân biệt cơ sở dữ liệu vectơ với các thuật ngữ có liên quan chặt chẽ:

  • Nhúng: Nhúng là các biểu diễn vector của dữ liệu. Cơ sở dữ liệu vector là hệ thống chuyên biệt được xây dựng để lưu trữ, lập chỉ mục và truy vấn các nhúng này một cách hiệu quả. Hãy coi nhúng như những cuốn sách và cơ sở dữ liệu vector như một thư viện thông minh giúp sắp xếp chúng.
  • Tìm kiếm vectơ: Tìm kiếm vectơ là quá trình tìm kiếm các vectơ giống nhau nhất trong một tập dữ liệu. Cơ sở dữ liệu vectơ là công nghệ nền tảng giúp quá trình này nhanh chóng và có khả năng mở rộng, đặc biệt là cho suy luận thời gian thực .

Các thành phần này được quản lý như một phần của quy trình làm việc MLOps hoàn chỉnh, thường được hỗ trợ bởi các nền tảng như Ultralytics HUB để quản lý mô hình và tập dữ liệu đầu cuối.

Cơ sở dữ liệu Vector phổ biến

Có một số cơ sở dữ liệu vector mã nguồn mở và thương mại, mỗi cơ sở dữ liệu có những điểm mạnh khác nhau về khả năng mở rộng, triển khai và tính năng. Một số cơ sở dữ liệu được sử dụng rộng rãi nhất bao gồm:

  • Pinecone : Một dịch vụ cơ sở dữ liệu vector phổ biến, được quản lý hoàn toàn.
  • Milvus : Cơ sở dữ liệu vector nguồn mở được thiết kế để có hiệu suất và khả năng mở rộng cao.
  • Weaviate : Cơ sở dữ liệu mã nguồn mở, ứng dụng AI với khả năng tạo đồ thị.
  • Chroma DB : Cơ sở dữ liệu nhúng mã nguồn mở tập trung vào sự đơn giản và trải nghiệm của nhà phát triển.
  • Qdrant : Cơ sở dữ liệu vectơ mã nguồn mở và công cụ tìm kiếm điểm tương đồng được viết bằng Rust để đảm bảo hiệu suất và an toàn.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard