Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Nhúng (Embeddings)

Tìm hiểu về nhúng (embeddings) và cách chúng hỗ trợ AI bằng cách nắm bắt các mối quan hệ ngữ nghĩa trong dữ liệu cho NLP, hệ thống đề xuất và thị giác máy tính.

Nhúng là các biểu diễn vectơ liên tục, ít chiều và dày đặc của các biến rời rạc, đóng vai trò là định dạng dữ liệu cơ bản trong trí tuệ nhân tạo (AI) hiện đại. Không giống như các biểu diễn thưa thớt như mã hóa one-hot, vốn có thể tạo ra các vectơ khổng lồ và kém hiệu quả, nhúng nắm bắt các mối quan hệ ngữ nghĩa và ý nghĩa cơ bản của dữ liệu bằng cách ánh xạ các đầu vào nhiều chiều—như từ ngữ, hình ảnh hoặc âm thanh—vào một không gian số nhỏ gọn. Trong không gian vectơ đã học này, các mục có cùng đặc điểm hoặc ngữ cảnh sẽ nằm gần nhau, cho phép các mô hình học máy (ML) hiểu và xử lý các mẫu phức tạp một cách trực quan.

Cách thức hoạt động của nhúng

Khái niệm cốt lõi đằng sau nhúng dữ liệu là việc chuyển đổi dữ liệu thô sang dạng toán học mà máy tính có thể xử lý hiệu quả. Quá trình này thường liên quan đến một mạng nơ-ron (NN) học cách ánh xạ dữ liệu đầu vào thành các vectơ số thực. Trong giai đoạn huấn luyện mô hình , mạng sẽ điều chỉnh các vectơ này sao cho khoảng cách giữa chúng tương ứng với độ tương đồng của các mục mà chúng đại diện.

Ví dụ, trong xử lý ngôn ngữ tự nhiên (NLP) , các nhúng cho từ "vua" và "nữ hoàng" sẽ gần nhau hơn về mặt toán học so với "quả táo", phản ánh mối quan hệ ngữ nghĩa của chúng. Phép biến đổi này là một hình thức giảm chiều , giúp bảo toàn thông tin thiết yếu đồng thời loại bỏ nhiễu, giúp các tác vụ tiếp theo như phân loại hoặc phân cụm hiệu quả hơn đáng kể.

Sáng tạo và Đào tạo

Các nhúng dữ liệu thường được tạo ra như một sản phẩm phụ của quá trình đào tạo các mô hình học sâu (DL) trên các tập dữ liệu lớn. Các nền tảng như PyTorchTensorFlow cung cấp các lớp được thiết kế riêng để học các biểu diễn này.

  1. Khởi tạo : Các vectơ nhúng thường được khởi tạo bằng các giá trị ngẫu nhiên.
  2. Học tập : Khi mô hình tối ưu hóa cho một mục tiêu cụ thể—chẳng hạn như dự đoán từ tiếp theo trong một chuỗi hoặc xác định các đối tượng trong hình ảnh—thì trọng số mô hình liên quan đến lớp nhúng sẽ được cập nhật.
  3. Kết quả : Trọng số học được cuối cùng đóng vai trò là bảng tra cứu nhúng, trong đó mỗi mã thông báo hoặc đối tượng đầu vào tương ứng với một vectơ dày đặc cụ thể.

Bạn có thể tạo nhúng cho hình ảnh bằng quy trình làm việc thị giác máy tính (CV) tiêu chuẩn. Sau đây là Python đoạn trích minh họa cách trích xuất nhúng từ hình ảnh bằng mô hình phân loại YOLO11 Ultralytics đã được đào tạo trước.

from ultralytics import YOLO

# Load a YOLO11 classification model
model = YOLO("yolo11n-cls.pt")

# Generate embeddings for an image from a URL
# The embed() method specifically returns the feature vector
embedding_vector = model.embed("https://ultralytics.com/images/bus.jpg")

# Output the shape of the embedding (e.g., a vector of length 1280)
print(f"Embedding shape: {embedding_vector[0].shape}")

Các Ứng dụng Thực tế

Công nghệ nhúng đã cách mạng hóa cách hệ thống xử lý dữ liệu phi cấu trúc, cung cấp những khả năng trước đây không thể thực hiện được.

  • Công cụ Tìm kiếm Ngữ nghĩa : Các công cụ tìm kiếm truyền thống dựa vào việc khớp từ khóa, thường gặp lỗi khi truy vấn sử dụng từ đồng nghĩa. Tìm kiếm ngữ nghĩa tận dụng các phép nhúng để khớp ý định của truy vấn với nội dung của tài liệu hoặc hình ảnh. Bằng cách so sánh khoảng cách vectơ giữa phép nhúng truy vấn và phép nhúng tài liệu, hệ thống sẽ tìm ra các kết quả có liên quan về mặt khái niệm, ngay cả khi chúng không cùng chung các từ chính xác.
  • Hệ thống Đề xuất Cá nhân hóa : Các nền tảng như Netflix hoặc Amazon sử dụng nhúng để mô hình hóa sở thích của người dùng và đặc điểm của sản phẩm. Nếu người dùng xem một bộ phim khoa học viễn tưởng, hệ thống đề xuất có thể gợi ý các phim khác có vectơ nhúng tương tự. Phương pháp này, thường được triển khai bằng thuật toán lân cận gần nhất trong cơ sở dữ liệu vectơ , có khả năng mở rộng hiệu quả lên đến hàng triệu sản phẩm.
  • Học Zero-Shot : Các mô hình tiên tiến như CLIP học nhúng khớp cho văn bản và hình ảnh. Điều này cho phép hệ thống classify hình ảnh mà nó chưa từng thấy trong quá trình đào tạo bằng cách so sánh hình ảnh nhúng với văn bản nhúng của tên lớp, một kỹ thuật được gọi là học không-cú-chút .

Nhúng (Embeddings) so với Các Khái Niệm Liên Quan

Việc hiểu được sự khác biệt giữa nhúng và các thuật ngữ liên quan là rất quan trọng để điều hướng bối cảnh AI.

  • Nhúng so với Trích xuất Đặc trưng : Mặc dù cả hai đều liên quan đến việc chuyển đổi dữ liệu thành các đặc trưng số, trích xuất đặc trưng có thể đề cập đến các kỹ thuật thủ công (như phát hiện cạnh) hoặc tự động. Nhúng là một loại trích xuất đặc trưng tự động, học được, tạo ra các vectơ dày đặc, thường được sử dụng làm đầu vào cho các mô hình khác hoặc cho các tác vụ so sánh tương đồng.
  • Nhúng so với Tìm kiếm Vector : Nhúng là cấu trúc dữ liệu (bản thân vector). Tìm kiếm vectorquá trình truy vấn một tập hợp các nhúng này để tìm các mục tương tự. Các công nghệ như Pinecone hoặc Milvus được thiết kế để lưu trữ các nhúng và thực hiện tìm kiếm này một cách hiệu quả.
  • Nhúng so với Mã hóa : Trong xử lý văn bản, mã hóa là bước chia văn bản thành các đơn vị nhỏ hơn gọi là mã thông báo (token ). Các mã thông báo này là các mã định danh rời rạc (số nguyên) dùng để tra cứu các vectơ nhúng tương ứng. Do đó, mã hóa diễn ra trước khi truy xuất các nhúng trong quy trình.

Bằng cách chuyển đổi các khái niệm trừu tượng thành các vectơ toán học, nhúng sẽ thu hẹp khoảng cách giữa trực giác của con người và logic máy móc, cho phép đạt được khả năng nhận dạng mẫu tinh vi như trong các ứng dụng AI tiên tiến nhất hiện nay.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay