Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Cơ sở dữ liệu Vector

Khám phá cách các cơ sở dữ liệu vector quản lý các nhúng đa chiều để truy xuất ngữ nghĩa. Tìm hiểu cách vận hành các ứng dụng AI với Ultralytics YOLO26 và tìm kiếm tương tự.

Cơ sở dữ liệu vector là một hệ thống lưu trữ chuyên dụng được thiết kế để quản lý, lập chỉ mục và truy vấn dữ liệu vector đa chiều, thường được gọi là các embedding . Không giống như cơ sở dữ liệu quan hệ truyền thống, vốn tổ chức dữ liệu có cấu trúc thành các hàng và cột để khớp chính xác từ khóa, cơ sở dữ liệu vector được tối ưu hóa cho việc truy xuất ngữ nghĩa. Nó cho phép các hệ thống thông minh tìm thấy các điểm dữ liệu tương tự về mặt khái niệm chứ không phải giống hệt nhau. Khả năng này là nền tảng cho cơ sở hạ tầng trí tuệ nhân tạo (AI) hiện đại, cho phép các ứng dụng xử lý và hiểu dữ liệu phi cấu trúc — chẳng hạn như hình ảnh, âm thanh, video và văn bản — bằng cách phân tích các mối quan hệ toán học giữa chúng. Các cơ sở dữ liệu này đóng vai trò như bộ nhớ dài hạn cho các tác nhân thông minh, tạo điều kiện thuận lợi cho các tác vụ như tìm kiếm trực quan và đề xuất cá nhân hóa.

Cách thức hoạt động của Cơ sở dữ liệu Vector

Chức năng của cơ sở dữ liệu vector xoay quanh khái niệm không gian vector, trong đó các mục dữ liệu được ánh xạ thành các điểm trong một hệ tọa độ đa chiều. Quá trình bắt đầu bằng việc trích xuất đặc trưng , trong đó mô hình học sâu (DL) chuyển đổi dữ liệu đầu vào thô thành các vector số.

  1. Đầu vào: Dữ liệu được xử lý bởi một mạng nơ-ron, chẳng hạn như YOLO26 hiện đại, để tạo ra các vectơ nhúng. Các vectơ này nén ý nghĩa ngữ nghĩa của dữ liệu đầu vào thành một danh sách dày đặc các số thực.
  2. Lập chỉ mục: Để đảm bảo độ trễ suy luận thấp trong quá trình truy xuất, cơ sở dữ liệu sắp xếp các vectơ này bằng các thuật toán chuyên biệt. Các kỹ thuật như Hierarchical Navigable Small World (HNSW) hoặc Inverted File Index (IVF) cho phép hệ thống điều hướng hàng tỷ vectơ một cách hiệu quả mà không cần quét từng mục nhập.
  3. Truy vấn: Khi người dùng gửi một truy vấn tìm kiếm (ví dụ: hình ảnh của một kiểu giày cụ thể), hệ thống sẽ chuyển đổi truy vấn đó thành một vectơ và tính toán độ gần của nó với các vectơ đã lưu trữ bằng cách sử dụng các thước đo khoảng cách như độ tương đồng cosin hoặc khoảng cách Euclidean .
  4. Truy xuất: Cơ sở dữ liệu trả về "các kết quả lân cận nhất", đại diện cho các kết quả phù hợp nhất với ngữ cảnh.

Sau đây Python Đoạn mã này minh họa cách tạo embedding bằng cách sử dụng một phương pháp tiêu chuẩn. ultralytics Mô hình này là bước tiên quyết trước khi điền dữ liệu vào cơ sở dữ liệu vectơ.

from ultralytics import YOLO

# Load a pre-trained YOLO26 classification model
model = YOLO("yolo26n-cls.pt")

# Generate feature embeddings for an image file
# The 'embed' method creates the vector representation needed for the database
results = model.embed("https://ultralytics.com/images/bus.jpg")

# Output the shape of the resulting embedding vector
print(f"Embedding vector shape: {results[0].shape}")

Các Ứng dụng Thực tế

Cơ sở dữ liệu vector là nền tảng của nhiều ứng dụng thị giác máy tính (CV)xử lý ngôn ngữ tự nhiên (NLP) tiên tiến được sử dụng trong môi trường doanh nghiệp hiện nay.

  • Tạo lập tăng cường bằng truy xuất (RAG): Trong kỷ nguyên trí tuệ nhân tạo tạo sinh , cơ sở dữ liệu vector cho phép các mô hình ngôn ngữ lớn (LLM) truy cập vào một thư viện khổng lồ các dữ liệu riêng tư, cập nhật. Bằng cách truy xuất các tài liệu liên quan dựa trên ý nghĩa ngữ nghĩa của lời nhắc từ người dùng, hệ thống giảm thiểu sự ảo tưởng trong LLM và cung cấp các phản hồi thực tế, phù hợp với ngữ cảnh.
  • Hệ thống đề xuất hình ảnh: Trong lĩnh vực trí tuệ nhân tạo ứng dụng trong bán lẻ , các nền tảng sử dụng cơ sở dữ liệu vector để hỗ trợ tính năng "mua sắm các kiểu dáng tương tự". Nếu người dùng xem một chiếc váy mùa hè cụ thể, hệ thống sẽ truy vấn cơ sở dữ liệu để tìm các hình ảnh sản phẩm khác có đặc điểm hình ảnh tương tự—phù hợp về họa tiết, kiểu dáng và màu sắc—mang lại trải nghiệm người dùng tốt hơn so với việc chỉ lọc dựa trên thẻ đơn giản.
  • Phát hiện bất thường và mối đe dọa: Hệ thống an ninh tận dụng cơ sở dữ liệu vectơ để phát hiện bất thường . Bằng cách lưu trữ các mô hình biểu diễn hành vi "bình thường" hoặc nhân viên được ủy quyền, hệ thống có thể ngay lập tức gắn cờ các điểm bất thường nằm ngoài cụm dự kiến trong không gian vectơ, tăng cường bảo mật dữ liệu và giám sát cơ sở.

Phân biệt các khái niệm liên quan

Để triển khai các hệ thống này một cách hiệu quả, việc phân biệt cơ sở dữ liệu vector với các công nghệ liên quan trong lĩnh vực vận hành học máy (MLOps) là rất hữu ích.

  • Cơ sở dữ liệu vectơ so với tìm kiếm vectơ : Tìm kiếm vectơ là hành động hoặc quy trình thuật toán tìm kiếm các vectơ tương tự ("cách thức"). Cơ sở dữ liệu vectơ là cơ sở hạ tầng mạnh mẽ được xây dựng để lưu trữ dữ liệu, quản lý chỉ mục và thực hiện các tìm kiếm này trên quy mô lớn ("nơi").
  • Cơ sở dữ liệu vector so với kho lưu trữ đặc trưng : Kho lưu trữ đặc trưng là một kho lưu trữ tập trung để quản lý các đặc trưng được sử dụng trong quá trình huấn luyện và suy luận mô hình, đảm bảo tính nhất quán. Mặc dù nó xử lý dữ liệu đặc trưng, nhưng nó không được tối ưu hóa chủ yếu cho các truy vấn truy xuất dựa trên sự tương đồng vốn là đặc trưng của cơ sở dữ liệu vector.
  • Cơ sở dữ liệu vector so với hồ dữ liệu : Hồ dữ liệu lưu trữ lượng lớn dữ liệu thô ở định dạng gốc. Cơ sở dữ liệu vector lưu trữ các biểu diễn toán học đã được xử lý (embedding) của dữ liệu đó, được tối ưu hóa đặc biệt cho tìm kiếm tương đồng .

Tích hợp với quy trình làm việc AI hiện đại

Việc triển khai cơ sở dữ liệu vector thường liên quan đến một quy trình mà các mô hình như YOLO26 hiệu quả đóng vai trò là công cụ nhúng. Các mô hình này xử lý dữ liệu hình ảnh ở thiết bị đầu cuối hoặc trên đám mây, và các vector kết quả được đẩy đến các giải pháp như Pinecone , Milvus hoặc Qdrant .

Đối với các nhóm đang tìm cách tối ưu hóa toàn bộ vòng đời này—từ việc quản lý dữ liệu và tự động chú thích đến huấn luyện và triển khai mô hình— Nền tảng Ultralytics cung cấp một môi trường toàn diện. Bằng cách tích hợp huấn luyện mô hình với các chiến lược triển khai hiệu quả, các nhà phát triển có thể đảm bảo rằng các embedding cung cấp cho cơ sở dữ liệu vector của họ là chính xác, dẫn đến kết quả tìm kiếm chất lượng cao hơn và các tác nhân AI thông minh hơn.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay