Thuật ngữ

Nhúng

Tìm hiểu nhúng là gì và cách chúng hỗ trợ AI bằng cách nắm bắt các mối quan hệ ngữ nghĩa trong dữ liệu cho NLP, đề xuất và thị giác máy tính.

Nhúng là nền tảng của học máy (ML) hiện đại, đại diện cho một phương pháp mạnh mẽ để chuyển đổi dữ liệu đa chiều như từ ngữ, hình ảnh, hoặc thậm chí người dùng thành các vectơ số có ý nghĩa, dày đặc và ít chiều. Mục tiêu chính của nhúng là nắm bắt các mối quan hệ ngữ nghĩa và bối cảnh cơ bản của dữ liệu gốc. Trong không gian vectơ này, các mục có ý nghĩa hoặc đặc điểm tương tự được đặt gần nhau hơn. Điều này cho phép các mô hình AI thực hiện các tác vụ suy luận và so sánh phức tạp mà dữ liệu thô, phi cấu trúc không thể thực hiện được.

Cách tạo nhúng

Nhúng thường được học tự động bởi một mô hình học sâu trong quá trình huấn luyện. Một mạng nơ-ron , thường được xây dựng bằng các nền tảng như PyTorch hoặc TensorFlow , được huấn luyện dựa trên một tác vụ liên quan, chẳng hạn như dự đoán từ tiếp theo trong câu hoặc phân loại hình ảnh. Một trong các lớp ẩn trong mạng này sau đó được sử dụng làm lớp nhúng. Khi mô hình học cách thực hiện tác vụ, nó sẽ điều chỉnh trọng số trong lớp này, từ đó học cách ánh xạ từng mục đầu vào thành một vectơ bao hàm các đặc điểm quan trọng nhất của mục đó. Quá trình này là một hình thức giảm chiều , nén một lượng lớn thông tin thành một định dạng nhỏ gọn và hữu ích.

Ứng dụng và Ví dụ

Nhúng là nền tảng cơ bản cho nhiều ứng dụng AI, từ xử lý ngôn ngữ tự nhiên (NLP) đến thị giác máy tính .

  • Công cụ đề xuất thương mại điện tử : Hệ thống đề xuất sử dụng các nhúng để đại diện cho cả người dùng và sản phẩm. Nếu người dùng thường xuyên mua hoặc xem các mặt hàng có nhúng tương tự (ví dụ: nhiều loại đồ chạy bộ), hệ thống có thể xác định các sản phẩm khác trong vùng lân cận vector đó (như gel năng lượng hoặc ba lô nước) và đề xuất chúng. Điều này hiệu quả hơn nhiều so với việc chỉ khớp từ khóa đơn giản.
  • Tìm kiếm Ngữ nghĩa và Truy xuất Hình ảnh : Thay vì dựa vào thẻ hoặc siêu dữ liệu, hệ thống tìm kiếm ngữ nghĩa sử dụng nhúng để tìm kết quả dựa trên ý nghĩa khái niệm. Người dùng có thể tìm kiếm "ảnh kỳ nghỉ hè" và hệ thống sẽ truy xuất hình ảnh bãi biển, núi non và cảnh du lịch, ngay cả khi những từ ngữ chính xác đó không có trong mô tả hình ảnh. Tính năng này được hỗ trợ bởi các mô hình như CLIP , tạo ra các nhúng được căn chỉnh cho cả văn bản và hình ảnh, cho phép sử dụng các mô hình đa phương thức mạnh mẽ. Nguyên lý tương tự này cho phép tìm kiếm trực quan mạnh mẽ, một tính năng quan trọng trong nhiều ứng dụng hiện đại. Bạn thậm chí có thể tự xây dựng tìm kiếm tương tự của riêng mình với hướng dẫn tìm kiếm tương đồng của chúng tôi.

Các ứng dụng khác bao gồm khám phá thuốc, trong đó các phân tử được nhúng vào để dự đoán tương tác và các dịch vụ phát nhạc trực tuyến đề xuất các bài hát có tính năng âm thanh tương tự.

Nhúng so với các khái niệm liên quan

Sẽ rất hữu ích khi phân biệt nhúng với các thuật ngữ liên quan:

  • Nhúng so với Trích xuất Đặc điểm : Nhúng là một hình thức trích xuất đặc điểm phức tạp, thường được tự động hóa, đạt được thông qua học sâu . Trong khi kỹ thuật đặc điểm truyền thống có thể liên quan đến việc xác định các đặc điểm theo cách thủ công (ví dụ: biểu đồ màu cho hình ảnh), thì nhúng học các đặc điểm liên quan trực tiếp từ dữ liệu trong quá trình đào tạo.
  • Nhúng so với Tìm kiếm Vector / Cơ sở dữ liệu Vector : Nhúng là biểu diễn vector của các mục dữ liệu. Tìm kiếm vector là quá trình truy vấn một tập hợp các nhúng để tìm ra những nhúng giống nhất (gần nhất) với một vector truy vấn, thường sử dụng thuật toán Xấp xỉ Lân cận Gần nhất (ANN) để tăng hiệu quả. Cơ sở dữ liệu vector (như Pinecone hoặc Milvus ) là cơ sở dữ liệu chuyên biệt được tối ưu hóa để lưu trữ, lập chỉ mục và thực hiện tìm kiếm vector nhanh trên khối lượng lớn các nhúng.
  • Nhúng so với Mã hóa : Mã hóa là quá trình chia nhỏ văn bản thành các đơn vị nhỏ hơn (mã thông báo). Các mã thông báo này sau đó được ánh xạ vào các nhúng. Vì vậy, mã thông báo là bước sơ bộ trước khi biểu diễn nhúng được tạo hoặc truy xuất. Các mô hình NLP tiêu biểu như BERTGPT-4 dựa trên quy trình hai bước này.

Nhúng cung cấp một phương thức mạnh mẽ để biểu diễn dữ liệu cho các mô hình học máy, cho phép chúng hiểu được những điểm tương đồng về mặt ngữ nghĩa và các mẫu phức tạp trong nhiều loại dữ liệu khác nhau. Chúng là một phần không thể thiếu trong khả năng của các nền tảng ML hiện đại như Ultralytics HUB , giúp đơn giản hóa việc tạo các mô hình AI tiên tiến cho các tác vụ như phát hiện đối tượngphân loại hình ảnh .

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard