Vector Search

Khám phá cách tìm kiếm vector sử dụng các embedding để tìm dữ liệu tương tự. Tìm hiểu cách tạo các vector chất lượng cao với Ultralytics YOLO26 để truy xuất thông tin chính xác.

Vector search là một phương pháp truy xuất thông tin tinh vi, giúp xác định các mục tương tự trong tập dữ liệu dựa trên đặc điểm toán học thay vì khớp chính xác theo từ khóa. Không giống như keyword search truyền thống vốn dựa vào việc tìm kiếm các chuỗi ký tự cụ thể, vector search phân tích ý nghĩa ngữ nghĩa tiềm ẩn của dữ liệu. Kỹ thuật này là nền tảng cho các ứng dụng artificial intelligence (AI) hiện đại vì nó cho phép máy tính hiểu được mối quan hệ giữa các khái niệm trừu tượng, từ đó xử lý unstructured data như hình ảnh, tệp âm thanh và văn bản ngôn ngữ tự nhiên với độ chính xác đáng kinh ngạc.

Link to this sectionVector Search hoạt động như thế nào#

Cốt lõi của vector search bao gồm việc chuyển đổi dữ liệu thô thành các vector số học nhiều chiều, được gọi là embeddings. Quá trình này ánh xạ các mục vào các điểm trong một không gian đa chiều, nơi các mục có khái niệm tương đồng được đặt gần nhau.

Vectorization: Một model deep learning (DL) xử lý dữ liệu đầu vào—ví dụ: ảnh một chú chó—và xuất ra một vector đặc trưng. Các model tiên tiến như YOLO26 thường được sử dụng để tạo ra các biểu diễn đặc trưng phong phú này một cách hiệu quả.
Indexing: Để thực hiện tìm kiếm nhanh chóng, các vector này được tổ chức bằng các thuật toán chuyên biệt và thường được lưu trữ trong một vector database chuyên dụng.
Similarity Calculation: Khi người dùng gửi một truy vấn, hệ thống sẽ chuyển đổi truy vấn đó thành một vector và đo khoảng cách đến các vector đã lưu trữ bằng cách sử dụng các chỉ số như cosine similarity hoặc Euclidean distance.
Retrieval: Hệ thống trả về các "nearest neighbors" (láng giềng gần nhất), đại diện cho các kết quả phù hợp nhất về mặt ngữ cảnh.

Link to this sectionVí dụ Python: Tạo Embeddings#

Để triển khai vector search, trước tiên bạn phải chuyển đổi dữ liệu của mình thành các vector. Đoạn mã dưới đây minh họa cách tạo feature maps và embeddings từ một hình ảnh bằng cách sử dụng gói ultralytics và model YOLO26 đã được huấn luyện sẵn.

from ultralytics import YOLO

# Load a pre-trained YOLO26 classification model
model = YOLO("yolo26n-cls.pt")

# Generate feature embeddings for an image URL
# The 'embed' method returns the high-dimensional vector representation
results = model.embed("https://ultralytics.com/images/bus.jpg")

# Print the shape of the resulting embedding vector
print(f"Embedding vector shape: {results[0].shape}")

Link to this sectionCác ứng dụng trong thực tế#

Vector search là bộ máy đứng sau nhiều tính năng trực quan trong hệ sinh thái phần mềm ngày nay, giúp thu hẹp khoảng cách giữa computer vision (CV) và ý định của người dùng.

Visual Recommendation Systems: Trong lĩnh vực AI in retail, vector search hỗ trợ các tính năng "shop the look". Nếu khách hàng thích một chiếc túi xách cụ thể, hệ thống sẽ tìm các mục có vector hình ảnh tương tự—khớp về hình dạng, kết cấu và phong cách—tạo ra một recommendation system được cá nhân hóa.
Retrieval-Augmented Generation (RAG): Để cải thiện các Large Language Models (LLMs), các lập trình viên sử dụng vector search để truy xuất các tài liệu liên quan từ cơ sở tri thức. Điều này cung cấp ngữ cảnh cho AI, giúp giảm thiểu ảo giác và cải thiện độ chính xác trong các tương tác chatbot.
Anomaly Detection: Bằng cách phân cụm các vector của các hoạt động "bình thường", hệ thống có thể xác định các giá trị ngoại lai đi chệch khỏi cụm. Điều này rất quan trọng đối với anomaly detection trong kiểm soát chất lượng sản xuất và data security.

Link to this sectionPhân biệt các khái niệm liên quan#

Việc phân biệt vector search với các thuật ngữ tương tự sẽ giúp bạn hiểu rõ hơn về toàn bộ quy trình machine learning (ML).

Vector Search so với Semantic Search: Semantic search là ứng dụng rộng hơn trong việc hiểu ý định của người dùng ("cái gì"). Vector search là phương pháp thuật toán cụ thể được sử dụng để đạt được điều đó bằng cách tính toán khoảng cách vector ("như thế nào").
Vector Search so với Vector Database: Vector database là cơ sở hạ tầng được thiết kế để lưu trữ và quản lý các embeddings ở quy mô lớn. Vector search là quá trình truy vấn cơ sở dữ liệu đó để truy xuất thông tin.
Vector Search so với Keyword Search: Keyword search khớp với các chuỗi văn bản chính xác (ví dụ: "táo" khớp với "táo"). Vector search khớp với ý nghĩa, vì vậy "táo" có thể khớp với "trái cây" hoặc "đỏ", ngay cả khi các từ khác nhau.

Link to this sectionTích hợp với Nền tảng Ultralytics#

Đối với các đội ngũ đang xây dựng hệ thống similarity search, việc quản lý tập dữ liệu và huấn luyện các embedding model là bước đầu tiên quan trọng. Ultralytics Platform đơn giản hóa quy trình này bằng cách cung cấp các công cụ quản lý dữ liệu, huấn luyện trên đám mây và triển khai model. Bằng cách đảm bảo các model cơ sở của bạn—dù là cho object detection hay phân loại—đều hoạt động hiệu quả cao, bạn đảm bảo các vector kết quả sẽ cung cấp các kết quả tìm kiếm chính xác và có ý nghĩa.

Vector Search

Link to this sectionVector Search hoạt động như thế nào#

Link to this sectionVí dụ Python: Tạo Embeddings#

Link to this sectionCác ứng dụng trong thực tế#

Link to this sectionPhân biệt các khái niệm liên quan#

Link to this sectionTích hợp với Nền tảng Ultralytics#

Explore solutions

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

Hãy cùng nhau xây dựng tương lai của AI!