Vector Database

Khám phá cách các cơ sở dữ liệu vector quản lý các embedding nhiều chiều cho truy xuất ngữ nghĩa. Tìm hiểu cách vận hành các ứng dụng AI với Ultralytics YOLO26 và tìm kiếm tương đồng.

Vector database là một hệ thống lưu trữ chuyên dụng được thiết kế để quản lý, lập chỉ mục và truy vấn dữ liệu vector đa chiều, thường được gọi là embeddings. Không giống như relational database truyền thống, vốn tổ chức dữ liệu có cấu trúc thành các hàng và cột để khớp từ khóa chính xác, vector database được tối ưu hóa cho truy xuất ngữ nghĩa. Nó cho phép các hệ thống thông minh tìm thấy các điểm dữ liệu tương đương về mặt khái niệm thay vì giống hệt nhau. Khả năng này là nền tảng cho cơ sở hạ tầng artificial intelligence (AI) hiện đại, cho phép các ứng dụng xử lý và hiểu unstructured data—như hình ảnh, âm thanh, video và văn bản—bằng cách phân tích các mối quan hệ toán học giữa chúng. Các cơ sở dữ liệu này đóng vai trò là bộ nhớ dài hạn cho các tác nhân thông minh, hỗ trợ các tác vụ như tìm kiếm trực quan và đề xuất được cá nhân hóa.

Link to this sectionVector Database hoạt động như thế nào#

Chức năng của một vector database tập trung vào khái niệm không gian vector, nơi các mục dữ liệu được ánh xạ dưới dạng các điểm trong một hệ thống tọa độ đa chiều. Quá trình bắt đầu với feature extraction, tại đó một mô hình deep learning (DL) chuyển đổi các dữ liệu đầu vào thô thành các vector số học.

Ingestion (Nạp dữ liệu): Dữ liệu được xử lý bởi mạng thần kinh, chẳng hạn như YOLO26 hiện đại nhất, để tạo ra các embeddings. Các vector này nén ý nghĩa ngữ nghĩa của đầu vào thành một danh sách dày đặc các số dấu phẩy động.
Indexing (Lập chỉ mục): Để đảm bảo inference latency thấp trong quá trình truy xuất, cơ sở dữ liệu sắp xếp các vector này bằng các thuật toán chuyên dụng. Các kỹ thuật như Hierarchical Navigable Small World (HNSW) hoặc Inverted File Index (IVF) cho phép hệ thống điều hướng hàng tỷ vector một cách hiệu quả mà không cần quét từng mục riêng lẻ.
Querying (Truy vấn): Khi người dùng gửi một truy vấn tìm kiếm (ví dụ: hình ảnh của một kiểu giày cụ thể), hệ thống sẽ chuyển đổi truy vấn đó thành một vector và tính toán khoảng cách của nó với các vector đã lưu trữ bằng các thước đo khoảng cách như cosine similarity hoặc Euclidean distance.
Retrieval (Truy xuất): Cơ sở dữ liệu trả về các "nearest neighbors" (hàng xóm gần nhất), đại diện cho các kết quả phù hợp nhất về mặt ngữ cảnh.

Đoạn mã Python sau đây minh họa cách tạo embeddings bằng cách sử dụng mô hình ultralytics tiêu chuẩn, đây là bước tiên quyết trước khi điền dữ liệu vào vector database.

from ultralytics import YOLO

# Load a pre-trained YOLO26 classification model
model = YOLO("yolo26n-cls.pt")

# Generate feature embeddings for an image file
# The 'embed' method creates the vector representation needed for the database
results = model.embed("https://ultralytics.com/images/bus.jpg")

# Output the shape of the resulting embedding vector
print(f"Embedding vector shape: {results[0].shape}")

Link to this sectionCác ứng dụng trong thực tế#

Vector database là động cơ đằng sau nhiều ứng dụng computer vision (CV) và Natural Language Processing (NLP) tiên tiến được sử dụng trong môi trường doanh nghiệp ngày nay.

Retrieval-Augmented Generation (RAG): Trong kỷ nguyên của generative AI, vector database cho phép các Large Language Models (LLMs) truy cập vào một thư viện dữ liệu riêng tư, cập nhật. Bằng cách truy xuất các tài liệu liên quan dựa trên ý nghĩa ngữ nghĩa của lời nhắc của người dùng, hệ thống giúp giảm thiểu hallucinations in LLMs và cung cấp các phản hồi thực tế, nhận biết ngữ cảnh.
Visual Recommendation Engines (Công cụ đề xuất trực quan): Trong AI in retail, các nền tảng sử dụng vector database để hỗ trợ các tính năng "mua sắm các kiểu tương tự". Nếu người dùng xem một chiếc váy mùa hè cụ thể, hệ thống sẽ truy vấn cơ sở dữ liệu để tìm các hình ảnh sản phẩm khác với các visual embeddings tương tự—khớp về họa tiết, kiểu dáng và màu sắc—mang lại user experience tốt hơn so với việc lọc dựa trên thẻ đơn giản.
Anomaly and Threat Detection (Phát hiện bất thường và mối đe dọa): Các hệ thống an ninh tận dụng vector database để anomaly detection. Bằng cách lưu trữ embeddings về hành vi "bình thường" hoặc nhân sự được ủy quyền, hệ thống có thể gắn cờ ngay lập tức các trường hợp ngoại lệ nằm ngoài cụm dự kiến trong không gian vector, giúp tăng cường data security và giám sát cơ sở.

Link to this sectionPhân biệt các khái niệm liên quan#

Để triển khai các hệ thống này một cách hiệu quả, việc phân biệt vector database với các công nghệ liên quan trong bối cảnh machine learning operations (MLOps) là rất hữu ích.

Vector Database so với Vector Search: Vector search là hành động hoặc quy trình thuật toán để tìm các vector tương tự ("cách thực hiện"). Vector database là cơ sở hạ tầng mạnh mẽ được xây dựng để lưu trữ dữ liệu, quản lý chỉ mục và thực hiện các tìm kiếm này ở quy mô lớn ("nơi thực hiện").
Vector Database so với Feature Store: Feature store là một kho lưu trữ tập trung để quản lý các đặc trưng (features) được sử dụng trong quá trình huấn luyện và suy luận mô hình, đảm bảo tính nhất quán. Mặc dù nó xử lý dữ liệu đặc trưng, nhưng nó không được tối ưu hóa chủ yếu cho các truy vấn truy xuất dựa trên sự tương đồng vốn định nghĩa nên một vector database.
Vector Database so với Data Lake: Data lake lưu trữ một lượng lớn dữ liệu thô ở định dạng gốc. Vector database lưu trữ các biểu diễn toán học (embeddings) đã qua xử lý của dữ liệu đó, được tối ưu hóa đặc biệt cho similarity search.

Link to this sectionTích hợp với các luồng công việc AI hiện đại#

Việc triển khai một vector database thường bao gồm một quy trình mà ở đó các mô hình như YOLO26 hiệu quả đóng vai trò là công cụ nhúng (embedding engine). Các mô hình này xử lý dữ liệu trực quan tại biên hoặc trên đám mây, và các vector thu được sẽ được đẩy đến các giải pháp như Pinecone, Milvus, hoặc Qdrant.

Đối với các nhóm muốn hợp lý hóa toàn bộ vòng đời này—từ quản lý dữ liệu và tự động gán nhãn đến huấn luyện và triển khai mô hình—Ultralytics Platform cung cấp một môi trường toàn diện. Bằng cách tích hợp việc huấn luyện mô hình với các chiến lược triển khai hiệu quả, các nhà phát triển có thể đảm bảo rằng các embeddings cung cấp cho vector database của họ là chính xác, dẫn đến kết quả tìm kiếm chất lượng cao hơn và các tác nhân AI thông minh hơn.

Explore solutions

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Vector Database

Link to this sectionVector Database hoạt động như thế nào#

Link to this sectionCác ứng dụng trong thực tế#

Link to this sectionPhân biệt các khái niệm liên quan#

Link to this sectionTích hợp với các luồng công việc AI hiện đại#

Explore solutions

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

Hãy cùng nhau xây dựng tương lai của AI!