Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Tokenization

Khám phá sức mạnh của token hóa trong NLP và ML! Tìm hiểu cách chia văn bản thành các token giúp tăng cường các tác vụ AI như phân tích tình cảm và tạo văn bản.

Token hóa là quá trình cơ bản chuyển đổi một luồng dữ liệu thô—chẳng hạn như văn bản, mã hoặc hình ảnh—thành các đơn vị nhỏ hơn, rời rạc được gọi là token. Sự chuyển đổi này đóng vai trò là cầu nối quan trọng trong quy trình tiền xử lý dữ liệu , chuyển đổi thông tin phi cấu trúc của con người sang định dạng số mà các hệ thống Trí tuệ Nhân tạo (AI) có thể diễn giải. Bằng cách chia nhỏ dữ liệu phức tạp thành các phần dễ quản lý, token hóa cho phép các mô hình học máy xác định các mẫu, tìm hiểu các mối quan hệ ngữ nghĩa và thực hiện các tác vụ suy luận phức tạp. Nếu không có bước khởi đầu này, các mạng nơ-ron nhân tạo hỗ trợ công nghệ hiện đại sẽ không thể xử lý khối lượng lớn dữ liệu cần thiết cho việc huấn luyện.

Mã hóa so với Mã thông báo

Mặc dù các thuật ngữ này thường được sử dụng gần nhau, nhưng điều quan trọng là phải phân biệt phương pháp với kết quả.

  • Tokenizationhành động hoặc thuật toán được áp dụng cho dữ liệu. Nó bao gồm các quy tắc cụ thể để tách chuỗi hoặc phân đoạn hình ảnh. Các công cụ như spaCy hoặc NLTK hỗ trợ quá trình này cho văn bản.
  • Token là đơn vị đầu ra được tạo ra bởi quy trình. Để biết thêm chi tiết về bản chất của các đơn vị này, vui lòng tham khảo trang thuật ngữ của Token .

Cách thức hoạt động của Tokenization trong AI

Ứng dụng của mã hóa thay đổi đáng kể tùy thuộc vào loại dữ liệu được xử lý, mặc dù mục tiêu cuối cùng của việc tạo nhúng —biểu diễn vectơ của dữ liệu—vẫn giống nhau.

Phân tích văn bản trong NLP

Trong Xử lý Ngôn ngữ Tự nhiên (NLP) , quy trình này bao gồm việc chia câu thành các từ, từ phụ hoặc ký tự. Các phương pháp ban đầu chỉ đơn giản là chia văn bản theo khoảng trắng, nhưng các Mô hình Ngôn ngữ Lớn (LLM) hiện đại sử dụng các thuật toán tiên tiến như Mã hóa Cặp Byte (BPE) để xử lý các từ hiếm một cách hiệu quả. Điều này cho phép các mô hình như GPT-4 xử lý từ vựng phức tạp mà không cần đến từ điển vô hạn.

Phân tích cú pháp trực quan trong thị giác máy tính

Theo truyền thống, Thị giác Máy tính (CV) hoạt động trên các mảng điểm ảnh. Tuy nhiên, sự ra đời của Vision Transformer (ViT) đã giới thiệu khái niệm chia hình ảnh thành các mảng có kích thước cố định (ví dụ: 16x16 pixel). Các mảng này được làm phẳng và được coi là các mã thông báo trực quan, cho phép mô hình sử dụng khả năng tự chú ý để cân nhắc tầm quan trọng của các vùng hình ảnh khác nhau, tương tự như cách xử lý một câu.

Các Ứng dụng Thực tế

Mã hóa không chỉ là một khái niệm lý thuyết; nó hỗ trợ nhiều ứng dụng AI được sử dụng hàng ngày.

  1. Phát hiện đa phương thức: Các mô hình tiên tiến như YOLO -World thu hẹp khoảng cách giữa văn bản và hình ảnh. Bằng cách mã hóa dữ liệu đầu vào của người dùng (ví dụ: "xe màu đỏ") và so sánh với các đặc điểm trực quan, các mô hình này thực hiện phát hiện đối tượng với vốn từ vựng mở mà không cần phải được đào tạo lại một cách rõ ràng trên các lớp mới.
  2. Dịch ngôn ngữ: Các dịch vụ như Google Dịch dựa vào việc chia văn bản đầu vào thành các mã thông báo, dịch chúng thông qua mô hình chuỗi-sang-chuỗi và lắp ráp lại các mã thông báo đầu ra thành ngôn ngữ đích.
  3. Nghệ thuật sáng tạo: Các mô hình có khả năng tạo văn bản thành hình ảnh , chẳng hạn như Stable Diffusion , phân chia các lời nhắc văn bản thành mã thông báo để hướng dẫn quá trình khử nhiễu, tạo ra hình ảnh phù hợp với ý nghĩa ngữ nghĩa của mã thông báo đầu vào.

Ví dụ: Mã hóa trong YOLO -Thế giới

Ví dụ sau đây minh họa cách ultralytics sử dụng mã thông báo ngầm trong YOLO -Mô hình thế giới quy trình làm việc. Các .set_classes() phương pháp mã hóa danh sách văn bản để hướng dẫn tiêu điểm phát hiện của mô hình một cách động.

from ultralytics import YOLO

# Load a pre-trained YOLO-World model
model = YOLO("yolov8s-world.pt")

# Define custom classes; the model tokenizes these strings to search for specific objects
model.set_classes(["backpack", "person"])

# Run prediction on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results (only detects the tokenized classes defined above)
results[0].show()

Tầm quan trọng trong hiệu suất mô hình

Việc lựa chọn chiến lược mã hóa ảnh hưởng trực tiếp đến độ chính xác và hiệu quả tính toán. Mã hóa không hiệu quả có thể dẫn đến lỗi "ngoài vốn từ vựng" trong NLP hoặc mất chi tiết chi tiết trong phân đoạn ảnh . Các nền tảng như PyTorchTensorFlow cung cấp các công cụ linh hoạt để tối ưu hóa bước này. Khi các kiến trúc phát triển — chẳng hạn như YOLO11 mới nhất — việc xử lý dữ liệu hiệu quả đảm bảo các mô hình có thể chạy suy luận thời gian thực trên nhiều phần cứng khác nhau, từ GPU đám mây mạnh mẽ đến các thiết bị biên.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay