Thuật ngữ

Tìm kiếm Vector

Khám phá cách tìm kiếm vector cách mạng hóa AI bằng cách cho phép có sự tương đồng về mặt ngữ nghĩa trong việc truy xuất dữ liệu cho NLP, tìm kiếm trực quan, hệ thống đề xuất, v.v.!

Tìm kiếm vectơ là một phương pháp tìm kiếm các mục tương tự nhau trong một tập dữ liệu lớn bằng cách biểu diễn dữ liệu dưới dạng vectơ số, được gọi là nhúng. Thay vì khớp chính xác các từ khóa, phương pháp này xác định các mục tương tự về mặt ngữ nghĩa hoặc ngữ cảnh. Phương pháp này là nền tảng cho các hệ thống trí tuệ nhân tạo (AI) hiện đại, cho phép truy xuất thông tin trực quan và chính xác hơn cho các loại dữ liệu phức tạp như hình ảnh, văn bản và âm thanh. Phương pháp này vượt ra ngoài các truy vấn theo nghĩa đen để hiểu ý nghĩa hoặc mục đích cơ bản, biến nó thành một công cụ mạnh mẽ để xây dựng các công cụ tìm kiếm và đề xuất tinh vi.

Tìm kiếm Vector hoạt động như thế nào?

Quá trình tìm kiếm vector bao gồm một số bước chính để chuyển đổi dữ liệu thô thành định dạng có thể tìm kiếm dựa trên ý nghĩa. Quá trình này được hỗ trợ bởi các mô hình học sâu và các thuật toán hiệu quả.

  1. Tạo nhúng: Đầu tiên, một mô hình học máy , chẳng hạn như bộ biến đổi hoặc mạng nơ-ron tích chập (CNN) , sẽ chuyển đổi các mục dữ liệu (ví dụ: câu, hình ảnh, hồ sơ người dùng) thành các vectơ số chiều cao gọi là nhúng . Mỗi vectơ nắm bắt được bản chất ngữ nghĩa của mục dữ liệu.
  2. Lập chỉ mục: Các vectơ được tạo ra này được lưu trữ và lập chỉ mục trong một cơ sở dữ liệu vectơ chuyên biệt. Các cơ sở dữ liệu này, chẳng hạn như Pinecone hoặc Milvus , được tối ưu hóa để quản lý và truy vấn hiệu quả một lượng lớn dữ liệu vectơ.
  3. Truy vấn: Khi người dùng gửi truy vấn (như cụm từ văn bản hoặc hình ảnh), truy vấn đó sẽ được chuyển đổi thành vectơ bằng cùng một mô hình.
  4. Tính toán Độ tương đồng: Hệ thống sau đó sử dụng các thuật toán để tìm các vectơ trong cơ sở dữ liệu "gần nhất" với vectơ truy vấn. Điều này thường được thực hiện bằng các phép đo khoảng cách như độ tương đồng cosin hoặc khoảng cách Euclid. Để xử lý các tập dữ liệu lớn, các hệ thống thường sử dụng các thuật toán Xấp xỉ Láng giềng Gần nhất (ANN) như ScaNN hoặc Faiss để tìm kiếm nhanh chóng, có khả năng mở rộng, giúp tìm ra các kết quả trùng khớp có mức độ liên quan cao, nếu không muốn nói là chính xác.

Ứng dụng trong thế giới thực

Tìm kiếm vector là công nghệ đằng sau nhiều tính năng AI tiên tiến. Nó cho phép các hệ thống vượt ra ngoài phạm vi so khớp đơn thuần và cung cấp kết quả có nhận thức về ngữ cảnh trong nhiều ngành công nghiệp khác nhau.

  • Tìm kiếm hình ảnh ngữ nghĩa : Thay vì dựa vào thẻ hoặc tên tệp thủ công, người dùng có thể tìm kiếm hình ảnh bằng các cụm từ ngôn ngữ tự nhiên mang tính mô tả. Ví dụ: người dùng có thể tìm kiếm "một chiếc ô tô đang chạy trên đường núi lúc hoàng hôn", và hệ thống sẽ tự động trích xuất các hình ảnh tương tự về mặt hình ảnh, hiểu các khái niệm "ô tô", "núi" và "hoàng hôn" trong ngữ cảnh. Bạn có thể khám phá cách thức hoạt động của tính năng này với hướng dẫn tìm kiếm tương đồng của Ultralytics .
  • Hệ thống Đề xuất : Các nền tảng thương mại điện tử và phát trực tuyến sử dụng tìm kiếm vector để đề xuất sản phẩm hoặc nội dung. Nếu bạn xem một bộ phim khoa học viễn tưởng, dịch vụ có thể tìm và đề xuất các bộ phim khác có cùng thể loại, tông điệu và cốt truyện bằng cách so sánh các vector nhúng của chúng. Đây là một chức năng cốt lõi của AI trong bán lẻ nhằm nâng cao trải nghiệm và sự tương tác của người dùng.

Tìm kiếm vectơ so với các khái niệm liên quan

Sẽ rất hữu ích khi phân biệt tìm kiếm vectơ với các thuật ngữ liên quan khác để hiểu vai trò cụ thể của nó trong hệ sinh thái AI.

  • Tìm kiếm từ khóa: Tìm kiếm từ khóa truyền thống dựa vào việc khớp chính xác các từ hoặc cụm từ. Nó gặp khó khăn với các từ đồng nghĩa, ngữ cảnh và sắc thái ngôn ngữ. Ngược lại, tìm kiếm vector hiểu được các mối quan hệ ngữ nghĩa, cho phép tìm kiếm kết quả phù hợp ngay cả khi các từ khóa không khớp chính xác.
  • Tìm kiếm ngữ nghĩa: Tìm kiếm ngữ nghĩa là khái niệm rộng về việc hiểu ý định và ý nghĩa ngữ cảnh của truy vấn. Tìm kiếm vectơ là phương pháp cốt lõi được sử dụng để triển khai tìm kiếm ngữ nghĩa. Trong khi tìm kiếm ngữ nghĩa là "cái gì" (hiểu ý nghĩa), tìm kiếm vectơ là "như thế nào" (cơ chế truy xuất dựa trên sự gần gũi của vectơ).
  • Nhúng: Nhúngbiểu diễn vector của dữ liệu. Tìm kiếm vector là quá trình truy vấn một tập hợp các nhúng để tìm ra những nhúng giống nhau nhất. Nhúng là dữ liệu, trong khi tìm kiếm vector là hành động được thực hiện trên dữ liệu đó.
  • Cơ sở dữ liệu Vector: Cơ sở dữ liệu Vectorcơ sở hạ tầng chuyên biệt để lưu trữ, lập chỉ mục và truy vấn hiệu quả các dữ liệu nhúng. Các nền tảng như Ultralytics HUB giúp quản lý các tập dữ liệu và mô hình tạo ra các dữ liệu nhúng này để sử dụng trong các hệ thống tìm kiếm Vector.

Bằng cách tận dụng sức mạnh của nhúng và thuật toán tìm kiếm phức tạp, tìm kiếm vectơ thu hẹp khoảng cách giữa ý định của con người và dữ liệu số, biến nó thành thành phần thiết yếu cho nhiều ứng dụng thông minh, từ xử lý ngôn ngữ tự nhiên (NLP) đến các tác vụ thị giác máy tính nâng cao.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard