Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Cơ sở dữ liệu Vector

Khám phá cách cơ sở dữ liệu vector tạo ra cuộc cách mạng trong AI bằng cách cho phép tìm kiếm tương đồng hiệu quả, tìm kiếm ngữ nghĩa và phát hiện dị thường cho các hệ thống thông minh.

Cơ sở dữ liệu vector là một hệ thống lưu trữ chuyên biệt được thiết kế để quản lý, lập chỉ mục và truy vấn dữ liệu vector đa chiều, thường được gọi là nhúng . Không giống như các cơ sở dữ liệu quan hệ truyền thống lưu trữ dữ liệu có cấu trúc theo hàng và cột để khớp chính xác từ khóa, cơ sở dữ liệu vector được tối ưu hóa để tìm kiếm các mục dựa trên độ tương đồng ngữ nghĩa của chúng. Khả năng này biến chúng thành nền tảng của cơ sở hạ tầng trí tuệ nhân tạo (AI) hiện đại, cho phép các hệ thống xử lý dữ liệu phi cấu trúc—chẳng hạn như hình ảnh, âm thanh và văn bản—bằng cách hiểu các mối quan hệ ngữ cảnh giữa chúng. Về cơ bản, chúng đóng vai trò là bộ nhớ dài hạn cho các ứng dụng học máy , cho phép truy xuất hiệu quả thông tin có liên quan về mặt khái niệm thay vì thông tin giống hệt nhau.

Cách thức hoạt động của Cơ sở dữ liệu Vector

Chức năng cốt lõi của cơ sở dữ liệu vector dựa trên việc chuyển đổi dữ liệu thô thành các vector toán học thông qua một quy trình được gọi là trích xuất đặc điểm . Một mô hình học sâu , chẳng hạn như Vision Transformer (ViT) hoặc Convolutional Neural Network (CNN) , sẽ phân tích dữ liệu và đưa ra một vector—một danh sách dài các số biểu diễn các đặc điểm của dữ liệu.

Sau khi các vectơ này được tạo ra, cơ sở dữ liệu sẽ lập chỉ mục chúng bằng các thuật toán chuyên biệt như ANN (Xấp xỉ Láng giềng Gần nhất) . Khi người dùng thực hiện truy vấn, hệ thống sẽ chuyển đổi thuật ngữ tìm kiếm (hình ảnh hoặc văn bản) thành một vectơ và tính toán độ gần của nó với các vectơ đã lưu trữ bằng các phép đo khoảng cách như Độ tương đồng Cosine hoặc Khoảng cách Euclidean . Điều này cho phép cơ sở dữ liệu nhanh chóng xác định các láng giềng "gần nhất", đại diện cho các kết quả phù hợp nhất.

Đoạn mã sau đây trình bày cách tạo nhúng bằng mô hình YOLO11 , đây là bước đầu tiên trước khi lưu trữ dữ liệu trong cơ sở dữ liệu vector.

from ultralytics import YOLO

# Load a pre-trained YOLO11 classification model
model = YOLO("yolo11n-cls.pt")

# Generate feature embeddings for an image file
# This converts the visual content into a numerical vector
results = model.embed("bus.jpg")

# Output the shape of the resulting embedding vector
print(f"Embedding vector shape: {results[0].shape}")

Các Ứng dụng Thực tế

Cơ sở dữ liệu vector là công cụ đằng sau nhiều tính năng thông minh trong phần mềm thương mại và doanh nghiệp.

  • Công cụ Đề xuất Trực quan: Trong lĩnh vực AI bán lẻ , các nền tảng sử dụng cơ sở dữ liệu vector để hỗ trợ tính năng "mua sắm theo phong cách". Khi khách hàng xem một sản phẩm, hệ thống sẽ truy vấn cơ sở dữ liệu vector để tìm các mặt hàng có hình ảnh nhúng tương tự, gợi ý các sản phẩm có kiểu dáng, màu sắc hoặc họa tiết phù hợp. Điều này nâng cao trải nghiệm người dùng bằng cách cung cấp các đề xuất được cá nhân hóa, vượt xa các thẻ danh mục đơn giản.
  • Tạo dữ liệu tăng cường truy xuất (RAG): Cơ sở dữ liệu vector rất quan trọng đối với các hệ thống Tạo dữ liệu tăng cường truy xuất (RAG) . Bằng cách lưu trữ các dữ liệu nhúng của cơ sở kiến thức nội bộ khổng lồ, các công ty cho phép Mô hình Ngôn ngữ Lớn (LLM) truy xuất ngữ cảnh chính xác, cập nhật trước khi tạo ra câu trả lời. Điều này giúp giảm ảo giác và đảm bảo AI đưa ra phản hồi thực tế dựa trên các tài liệu đã truy xuất.

Phân biệt các khái niệm liên quan

Để hiểu hệ sinh thái, cần phân biệt cơ sở dữ liệu vectơ với các thuật ngữ liên quan:

  • Cơ sở dữ liệu Vector so với Tìm kiếm Vector : Tìm kiếm Vector là hành động hoặc quy trình thuật toán tìm kiếm các vector tương tự. Cơ sở dữ liệu Vector là cơ sở hạ tầng hoặc hệ thống phần mềm được xây dựng để lưu trữ các vector này và thực hiện tìm kiếm một cách có thể mở rộng và liên tục.
  • Cơ sở dữ liệu vectơ so với nhúng : Nhúng là tải trọng dữ liệu thực tế—biểu diễn số của đầu vào. Cơ sở dữ liệu vectơ là nơi chứa các nhúng này để truy cập nhanh.
  • Cơ sở dữ liệu Vector so với Kỹ thuật Tính năng : Kỹ thuật tính năng là quy trình rộng hơn để tạo ra các tính năng cho mô hình. Cơ sở dữ liệu Vector lưu trữ kết quả của kỹ thuật tính năng tự động (nhúng) được thực hiện bởi các mô hình học sâu.

Giải pháp cơ sở dữ liệu Vector phổ biến

Thị trường cung cấp một số tùy chọn mạnh mẽ để triển khai lưu trữ vector, từ các công cụ nguồn mở đến các dịch vụ được quản lý:

  • Pinecone : Cơ sở dữ liệu vector được quản lý hoàn toàn trên nền tảng đám mây, được thiết kế để có khả năng mở rộng tốc độ cao và dễ sử dụng trong sản xuất.
  • Milvus : Cơ sở dữ liệu vectơ nguồn mở được xây dựng để tìm kiếm sự tương đồng có thể mở rộng, thường được sử dụng trong các ứng dụng thị giác máy tính quy mô lớn.
  • Qdrant : Công cụ tìm kiếm vector hiệu suất cao được viết bằng Rust, cung cấp khả năng lọc nâng cao cho các truy vấn phức tạp.
  • Weaviate : Cơ sở dữ liệu vectơ gốc AI lưu trữ cả đối tượng và vectơ, cho phép kết hợp tìm kiếm vectơ và từ khóa.

Bằng cách tích hợp các công cụ này vào quy trình làm việc MLOps , các nhà phát triển có thể xây dựng các hệ thống thực sự "hiểu" nội dung dữ liệu, cho phép các khả năng nâng cao như tìm kiếm ngữ nghĩa, phát hiện bất thường và phân phối nội dung được cá nhân hóa.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay