Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024
Bảng chú giải thuật ngữ

Cơ sở dữ liệu Vector

Khám phá cách cơ sở dữ liệu vector tạo ra cuộc cách mạng trong AI bằng cách cho phép tìm kiếm tương đồng hiệu quả, tìm kiếm ngữ nghĩa và phát hiện dị thường cho các hệ thống thông minh.

Cơ sở dữ liệu vector là một loại cơ sở dữ liệu chuyên dụng được thiết kế để lưu trữ, quản lý và tìm kiếm dữ liệu chiều cao, được gọi là embedding vector. Không giống như các cơ sở dữ liệu quan hệ truyền thống được tối ưu hóa cho dữ liệu có cấu trúc và các kết quả khớp chính xác, cơ sở dữ liệu vector vượt trội trong việc tìm kiếm các mục dựa trên sự tương đồng của chúng. Khả năng này là nền tảng cho một loạt các ứng dụng AI hiện đại, từ công cụ đề xuất đến tìm kiếm trực quan, khiến chúng trở thành một thành phần quan trọng trong cơ sở hạ tầng học máy. Chúng đóng vai trò là bộ nhớ dài hạn cho các mô hình AI, cho phép chúng tận dụng các mẫu phức tạp được học trong quá trình huấn luyện.

Cách thức hoạt động của Cơ sở dữ liệu Vector

Chức năng cốt lõi của cơ sở dữ liệu vector là thực hiện hiệu quả một tìm kiếm vector. Quá trình này bắt đầu khi dữ liệu phi cấu trúc—chẳng hạn như hình ảnh, một đoạn văn bản hoặc một đoạn âm thanh—được đưa qua một mô hình deep learning để tạo ra một biểu diễn số được gọi là vector embedding. Các embedding này nắm bắt ý nghĩa ngữ nghĩa của dữ liệu gốc.

Sau đó, cơ sở dữ liệu vector lưu trữ các embedding này và lập chỉ mục chúng bằng các thuật toán chuyên dụng. Khi một truy vấn được thực hiện (ví dụ: tìm kiếm bằng hình ảnh), dữ liệu truy vấn cũng được chuyển đổi thành một vector. Sau đó, cơ sở dữ liệu so sánh vector truy vấn này với các vector đã lưu trữ bằng cách sử dụng các số liệu tương đồng như Độ tương đồng Cosine hoặc Khoảng cách Euclidean để tìm các mục "gần nhất" hoặc tương tự nhất. Để thực hiện điều này ở quy mô lớn với hàng triệu hoặc hàng tỷ vector, chúng thường dựa vào các thuật toán Tìm kiếm lân cận gần đúng (ANN) hiệu quả cao.

Các Ứng dụng Thực tế

Cơ sở dữ liệu vector cung cấp sức mạnh cho nhiều tính năng thông minh mà người dùng tương tác hàng ngày.

  1. Tìm kiếm bằng hình ảnh trong Thương mại điện tử: Người dùng có thể tải lên ảnh của một sản phẩm mà họ thích. Một mô hình thị giác máy tính, chẳng hạn như mô hình Ultralytics YOLO11, tạo ra một embedding cho hình ảnh. Embedding này được sử dụng để truy vấn cơ sở dữ liệu vector của trang web thương mại điện tử, chứa các embedding cho toàn bộ danh mục sản phẩm của trang web. Cơ sở dữ liệu trả về các vector tương tự nhất, cho phép trang web hiển thị các sản phẩm giống hệt hoặc liên quan đến phong cách, một tính năng quan trọng trong AI cho bán lẻ.
  2. Tìm kiếm Ngữ nghĩa cho Tài liệu: Một công ty có thể tạo embedding cho tất cả các tài liệu nội bộ của mình, chẳng hạn như báo cáo và phiếu hỗ trợ. Sau đó, nhân viên có thể tìm kiếm bằng cách sử dụng một câu hỏi bằng ngôn ngữ tự nhiên như "Lợi nhuận của chúng ta trong quý trước là bao nhiêu?" thay vì các từ khóa cụ thể. Mô hình Xử lý Ngôn ngữ Tự nhiên (NLP) chuyển đổi truy vấn này thành một embedding và cơ sở dữ liệu vectơ tìm các tài liệu có embedding gần nhất về mặt ngữ nghĩa, cung cấp thông tin liên quan ngay cả khi cách diễn đạt chính xác không khớp. Đây là một thành phần cốt lõi của hệ thống tạo tăng cường truy xuất (RAG).

Cơ sở dữ liệu Vector so với các Khái niệm Liên quan

Điều quan trọng là phân biệt cơ sở dữ liệu vector với các thuật ngữ liên quan chặt chẽ:

  • Embeddings: Embeddings là các biểu diễn vector của dữ liệu. Cơ sở dữ liệu vector là hệ thống chuyên dụng được xây dựng để lưu trữ, lập chỉ mục và truy vấn các embeddings này một cách hiệu quả. Hãy coi embeddings như những cuốn sách và cơ sở dữ liệu vector như thư viện thông minh tổ chức chúng.
  • Tìm kiếm Vector: Tìm kiếm vector là quá trình tìm kiếm các vector tương tự nhất trong một tập dữ liệu. Cơ sở dữ liệu vector là công nghệ cơ bản giúp quá trình này nhanh chóng và có khả năng mở rộng, đặc biệt là cho suy luận theo thời gian thực.

Các thành phần này được quản lý như một phần của quy trình MLOps hoàn chỉnh, thường được hỗ trợ bởi các nền tảng như Ultralytics HUB để quản lý mô hình và bộ dữ liệu đầu cuối.

Các cơ sở dữ liệu vector phổ biến

Một số cơ sở dữ liệu vector mã nguồn mở và thương mại có sẵn, mỗi loại có những điểm mạnh khác nhau về khả năng mở rộng, triển khai và tính năng. Một số cơ sở dữ liệu được sử dụng rộng rãi nhất bao gồm:

  • Pinecone: Một dịch vụ cơ sở dữ liệu vector được quản lý hoàn toàn phổ biến.
  • Milvus: Một cơ sở dữ liệu vector mã nguồn mở được thiết kế cho hiệu suất cao và khả năng mở rộng.
  • Weaviate: Một cơ sở dữ liệu mã nguồn mở, AI-native với khả năng đồ thị.
  • Chroma DB: Một cơ sở dữ liệu embedding mã nguồn mở tập trung vào sự đơn giản và trải nghiệm của nhà phát triển.
  • Qdrant: Một cơ sở dữ liệu vector mã nguồn mở và công cụ tìm kiếm tương đồng được viết bằng Rust để đảm bảo hiệu suất và an toàn.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay
Đã sao chép liên kết vào clipboard