Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Tìm kiếm Vector

Khám phá cách tìm kiếm vector cách mạng hóa AI bằng cách cho phép tìm kiếm tương đồng ngữ nghĩa trong truy xuất dữ liệu cho NLP, tìm kiếm trực quan, hệ thống đề xuất và hơn thế nữa!

Tìm kiếm vectơ là một kỹ thuật truy xuất thông tin phức tạp, xác định các mục tương tự trong một tập dữ liệu dựa trên các đặc điểm toán học của chúng thay vì dựa trên các từ khóa khớp chính xác. Bằng cách biểu diễn dữ liệu—chẳng hạn như văn bản, hình ảnh hoặc âm thanh—dưới dạng các vectơ số đa chiều được gọi là nhúng (embedding) , phương pháp này cho phép máy tính hiểu ngữ cảnh và ý nghĩa ngữ nghĩa đằng sau một truy vấn. Không giống như tìm kiếm từ khóa truyền thống, vốn dựa trên việc khớp các từ cụ thể, tìm kiếm vectơ tính toán khoảng cách giữa các mục trong không gian đa chiều, cho phép trả về kết quả phù hợp ngay cả khi cách diễn đạt khác nhau. Khả năng này là nền tảng của các hệ thống trí tuệ nhân tạo (AI)học máy (ML) hiện đại, đặc biệt là trong việc xử lý dữ liệu phi cấu trúc như nguồn cấp dữ liệu video và ngôn ngữ tự nhiên.

Tìm kiếm Vector hoạt động như thế nào

Cơ chế cốt lõi của tìm kiếm vector liên quan đến việc chuyển đổi dữ liệu thô sang định dạng số có thể tìm kiếm. Quá trình này dựa trên các mô hình học sâu để thực hiện trích xuất đặc điểm , chuyển đổi dữ liệu đầu vào thành các vector nhúng.

  1. Vector hóa : Một mô hình ML, chẳng hạn như YOLO11 hiện đại, xử lý hình ảnh hoặc văn bản và đưa ra một vector—một danh sách dài các số biểu thị các đặc điểm của mục (ví dụ: hình dạng, màu sắc hoặc khái niệm ngữ nghĩa).
  2. Lập chỉ mục : Các vectơ này được tổ chức hiệu quả, thường nằm trong một cơ sở dữ liệu vectơ chuyên dụng, để có thể truy xuất nhanh chóng.
  3. Tính toán độ tương đồng : Khi người dùng gửi truy vấn, hệ thống sẽ chuyển đổi truy vấn thành một vectơ và đo khoảng cách của nó tới các vectơ đã lưu trữ bằng các số liệu như độ tương đồng cosin hoặc khoảng cách Euclid .
  4. Truy xuất : Hệ thống xác định và trả về "các láng giềng gần nhất" hoặc các vectơ gần nhất về mặt toán học với truy vấn, thường sử dụng thuật toán Láng giềng gần nhất (ANN) để có khả năng mở rộng trong các tập dữ liệu lớn.

Các Ứng dụng Thực tế

Tìm kiếm vector thúc đẩy nhiều tính năng thông minh mà người dùng tương tác hàng ngày, trải dài trên nhiều ngành công nghiệp từ thương mại điện tử đến bảo mật.

  • Khám phá Trực quan trong Bán lẻ : Trong AI trong bán lẻ , tìm kiếm vector hỗ trợ tính năng "mua sắm theo phong cách". Nếu người dùng tải lên ảnh giày thể thao, hệ thống sẽ sử dụng công nghệ thị giác máy tính để tạo nhúng và tìm các sản phẩm tương tự về mặt hình ảnh trong danh mục, hoạt động hiệu quả như một hệ thống đề xuất dựa trên kiểu dáng thay vì tên sản phẩm.
  • Kiểm duyệt và Bảo mật Nội dung : Các nền tảng sử dụng tìm kiếm vector để phát hiện bất thường bằng cách so sánh các nội dung tải lên mới với cơ sở dữ liệu nội dung bất hợp pháp hoặc các mối đe dọa bảo mật đã biết. Bằng cách đối chiếu các đặc điểm ngữ nghĩa của một hình ảnh hoặc khung video, hệ thống có thể gắn cờ nội dung có khả năng gây hại ngay cả khi nội dung đó đã bị thay đổi đôi chút, giúp tăng cường bảo mật dữ liệu .

Python Ví dụ: Tạo nhúng

Bước đầu tiên trong bất kỳ quy trình tìm kiếm vector nào là tạo ra các nhúng. Đoạn mã sau đây minh họa cách tạo ra các vector đặc trưng từ một hình ảnh bằng gói Ultralytics Python và một mô hình được đào tạo trước.

from ultralytics import YOLO

# Load the official YOLO11 model
model = YOLO("yolo11n.pt")

# Generate embeddings for an image file or URL
# The 'embed' method returns the high-dimensional feature vector
results = model.embed("https://ultralytics.com/images/bus.jpg")

# Print the shape of the resulting embedding vector
print(f"Embedding vector shape: {results[0].shape}")

Tìm kiếm Vector so với các Khái niệm Liên quan

Để triển khai hiệu quả các hệ thống này, cần phân biệt tìm kiếm vectơ với các thuật ngữ có liên quan chặt chẽ trong bối cảnh khoa học dữ liệu .

  • Tìm kiếm Vector so với Tìm kiếm Ngữ nghĩa : Tìm kiếm ngữ nghĩa là khái niệm rộng hơn về việc hiểu ý định và ý nghĩa của người dùng. Tìm kiếm Vector là phương pháp cụ thể được sử dụng để đạt được điều này bằng cách tính toán độ gần đúng toán học của các vectơ. Trong khi tìm kiếm ngữ nghĩa mô tả "cái gì" (tìm kiếm ý nghĩa), tìm kiếm Vector mô tả "cách thức" (sử dụng phép nhúng và phép đo khoảng cách).
  • Tìm kiếm Vector so với Cơ sở dữ liệu Vector : Cơ sở dữ liệu vector là cơ sở hạ tầng chuyên biệt được sử dụng để lưu trữ và lập chỉ mục các dữ liệu nhúng. Tìm kiếm Vector là hành động hoặc quy trình truy vấn cơ sở dữ liệu đó để tìm các mục tương tự. Bạn sử dụng cơ sở dữ liệu vector để thực hiện tìm kiếm vector một cách hiệu quả.
  • Tìm kiếm Vector so với Xử lý Ngôn ngữ Tự nhiên (NLP) : NLP tập trung vào sự tương tác giữa máy tính và ngôn ngữ con người. Trong khi các mô hình NLP (như Transformers) thường được sử dụng để tạo nhúng cho văn bản, tìm kiếm vector là cơ chế truy xuất tác động lên các nhúng đó.

Bằng cách tận dụng tốc độ suy luận thời gian thực và độ sâu của việc trích xuất đặc trưng học sâu, tìm kiếm vector cho phép các ứng dụng vượt ra ngoài cơ sở dữ liệu cứng nhắc và mang đến trải nghiệm khám phá trực quan, giống con người. Cho dù triển khai phát hiện đối tượng cho kho hàng hay xây dựng chatbot với ngữ cảnh được cải thiện, tìm kiếm vector là một công cụ nền tảng trong bộ công cụ của các nhà phát triển AI hiện đại.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay