Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Nhúng (Embeddings)

Khám phá cách các embedding kết nối dữ liệu của con người và logic máy móc. Tìm hiểu cách tạo ra các biểu diễn vector cho các tác vụ AI bằng cách sử dụng Ultralytics YOLO26 và khám phá Ultralytics Nền tảng.

Embedding là các biểu diễn vectơ liên tục, dày đặc, có chiều thấp của các biến rời rạc, đóng vai trò là bộ chuyển đổi cơ bản giữa dữ liệu của con người và logic máy móc. Trong lĩnh vực Trí tuệ Nhân tạo (AI) , máy tính không thể hiểu một cách trực quan các dữ liệu lộn xộn, không có cấu trúc như văn bản, hình ảnh hoặc âm thanh. Embedding giải quyết vấn đề này bằng cách chuyển đổi các đầu vào này thành danh sách các số thực, được gọi là vectơ, tồn tại trong không gian toán học có chiều cao. Không giống như các mã hóa truyền thống chỉ gán một ID ngẫu nhiên cho một đối tượng, embedding được học thông qua quá trình huấn luyện, đảm bảo rằng các mục có ý nghĩa tương tự — như các từ "vua" và "nữ hoàng", hoặc hình ảnh của hai con mèo khác nhau — được đặt gần nhau trong không gian vectơ .

Cách thức hoạt động của nhúng

Việc tạo ra một mô hình nhúng bao gồm việc đưa dữ liệu thô vào một mạng nơ-ron được thiết kế để trích xuất đặc trưng . Trong quá trình huấn luyện, mô hình học cách nén các đặc điểm thiết yếu của đầu vào thành một dạng số nhỏ gọn. Ví dụ, một mô hình Thị giác máy tính (CV) phân tích một bức ảnh không chỉ nhìn thấy các pixel; nó ánh xạ các hình dạng, kết cấu và màu sắc vào một tọa độ cụ thể trong một đồ thị đa chiều. Khi đo độ tương đồng, các hệ thống tính toán khoảng cách giữa các tọa độ này bằng cách sử dụng các chỉ số như độ tương đồng cosin hoặc khoảng cách Euclidean . Sự gần gũi về mặt toán học này cho phép các thuật toán thực hiện các tác vụ phức tạp như phân loại và phân cụm với hiệu quả cao.

Các Ứng dụng Thực tế

Các mã nhúng đóng vai trò là động cơ cho nhiều tính năng thông minh được sử dụng trong các sản phẩm phần mềm hiện đại.

  • Tìm kiếm ngữ nghĩa : Các công cụ tìm kiếm truyền thống thường dựa vào việc khớp chính xác từ khóa , điều này sẽ thất bại nếu người dùng tìm kiếm "auto" nhưng tài liệu lại chứa "car". Các embedding nắm bắt ý nghĩa đằng sau các từ. Bằng cách biểu diễn truy vấn tìm kiếm và các tài liệu trong cơ sở dữ liệu dưới dạng vector, hệ thống có thể truy xuất kết quả phù hợp với ý định của người dùng, ngay cả khi các từ cụ thể khác nhau.
  • Hệ thống đề xuất : Các dịch vụ phát trực tuyến và trang thương mại điện tử sử dụng mã nhúng để cá nhân hóa trải nghiệm người dùng. Nếu người dùng xem một bộ phim khoa học viễn tưởng, hệ thống sẽ xác định mã nhúng của bộ phim đó và tìm kiếm các bộ phim khác có mã nhúng gần giống trong cơ sở dữ liệu. Điều này cho phép đưa ra các đề xuất chính xác dựa trên sự tương đồng về nội dung thay vì chỉ dựa vào các thẻ hoặc danh mục thủ công.
  • Học không cần dữ liệu huấn luyện (Zero-Shot Learning ): Các mô hình tiên tiến sử dụng các embedding chung để liên kết các phương thức khác nhau, chẳng hạn như văn bản và hình ảnh. Điều này cho phép hệ thống nhận dạng các đối tượng mà nó chưa từng thấy rõ ràng trong quá trình huấn luyện bằng cách liên kết embedding hình ảnh với embedding văn bản của tên đối tượng.

Tạo Embedding với Python

Các mẫu xe tiên tiến như YOLO26 có thể được sử dụng để tạo ra các embedding hình ảnh mạnh mẽ một cách hiệu quả. Ví dụ sau đây minh họa cách trích xuất vectơ đặc trưng từ một hình ảnh bằng cách sử dụng ultralytics Python bưu kiện.

from ultralytics import YOLO

# Load a pre-trained YOLO26 classification model
model = YOLO("yolo26n-cls.pt")

# Generate embeddings for an image
# The embed() method returns the feature vector representing the image content
embedding_vector = model.embed("https://ultralytics.com/images/bus.jpg")

# Print the shape of the embedding (e.g., a vector of length 1280)
print(f"Embedding shape: {embedding_vector[0].shape}")

Nhúng (Embeddings) so với Các Khái Niệm Liên Quan

Để triển khai các giải pháp AI một cách hiệu quả, việc phân biệt giữa các embedding và các thuật ngữ kỹ thuật có liên quan chặt chẽ là rất hữu ích.

  • So sánh giữa Embedding và Tìm kiếm Vector : Embedding là chính cách biểu diễn dữ liệu (danh sách các số). Tìm kiếm vector là quá trình tiếp theo truy vấn cơ sở dữ liệu để tìm các láng giềng gần nhất với embedding đó. Các công cụ chuyên dụng được gọi là cơ sở dữ liệu vector thường được sử dụng để lưu trữ và tìm kiếm các embedding này trên quy mô lớn.
  • So sánh Embeddings và Tokenization : Trong Xử lý Ngôn ngữ Tự nhiên (NLP) , tokenization là bước sơ bộ chia văn bản thành các đoạn nhỏ hơn (token). Sau đó, các token này được ánh xạ tới các embeddings. Do đó, tokenization chuẩn bị dữ liệu, trong khi embeddings thể hiện ý nghĩa của dữ liệu.
  • So sánh Embeddings và Deep Learning : Deep learning là lĩnh vực rộng hơn của học máy dựa trên mạng nơ-ron. Embeddings là một đầu ra hoặc lớp cụ thể trong kiến ​​trúc học sâu, thường đóng vai trò là cầu nối giữa dữ liệu đầu vào thô và các lớp ra quyết định của mô hình.

Các nhà phát triển muốn quản lý vòng đời của tập dữ liệu, bao gồm chú thích và huấn luyện mô hình để tạo ra các embedding tùy chỉnh, có thể sử dụng Nền tảng Ultralytics . Công cụ toàn diện này đơn giản hóa quy trình làm việc từ quản lý dữ liệu đến triển khai, đảm bảo rằng các embedding cung cấp năng lượng cho ứng dụng của bạn được tạo ra từ dữ liệu chất lượng cao, được tuyển chọn kỹ lưỡng. Cho dù sử dụng các framework như PyTorch hay TensorFlow , việc nắm vững embedding là một bước quan trọng trong việc xây dựng các hệ thống nhận dạng mẫu phức tạp.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay