Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Tokenization

Khám phá sức mạnh của token hóa trong NLP và ML! Tìm hiểu cách chia văn bản thành các token giúp tăng cường các tác vụ AI như phân tích tình cảm và tạo văn bản.

Tokenization là quá trình thuật toán phân tách luồng dữ liệu thô—như văn bản, hình ảnh hoặc âm thanh—thành các đơn vị nhỏ hơn, dễ quản lý hơn gọi là token. Sự chuyển đổi này đóng vai trò là cầu nối quan trọng trong quy trình tiền xử lý dữ liệu , chuyển đổi dữ liệu đầu vào không cấu trúc thành định dạng số mà hệ thống trí tuệ nhân tạo (AI) có thể hiểu được. Máy tính không thể tự hiểu ngôn ngữ của con người hoặc các cảnh vật trực quan; chúng cần các biểu diễn số để thực hiện các phép tính. Bằng cách phân đoạn dữ liệu thành token, các kỹ sư cho phép mạng nơ-ron ánh xạ các đơn vị này thành các embedding —các biểu diễn vectơ nắm bắt ý nghĩa ngữ nghĩa. Nếu không có bước cơ bản này, các mô hình học máy sẽ không thể xác định các mẫu, học ngữ cảnh hoặc xử lý các tập dữ liệu khổng lồ cần thiết cho việc huấn luyện hiện đại.

Mã hóa so với Mã thông báo

Mặc dù các thuật ngữ này thường được nhắc đến cùng nhau trong các cuộc thảo luận về học sâu , nhưng việc phân biệt phương pháp với kết quả sẽ giúp hiểu rõ quy trình làm việc.

  • Tokenization is the process (the verb). It refers to the specific set of rules or algorithms used to split the data. For text, this might involve using libraries like NLTK or spaCy to determine where one unit ends and another begins.
  • Tokenđầu ra (danh từ). Nó là đơn vị riêng lẻ được tạo ra bởi quá trình, chẳng hạn như một từ đơn, một từ con, một ký tự hoặc một mảng pixel.

Các phương pháp áp dụng trong các lĩnh vực khác nhau

Chiến lược mã hóa dữ liệu (tokenization) thay đổi đáng kể tùy thuộc vào phương thức xử lý dữ liệu, ảnh hưởng đến cách mô hình nền tảng nhận thức thế giới.

Phân tích văn bản trong NLP

Trong Xử lý ngôn ngữ tự nhiên (NLP) , mục tiêu là segment Văn bản được dịch chính xác trong khi vẫn giữ nguyên ý nghĩa. Các phương pháp ban đầu dựa vào các kỹ thuật đơn giản như tách từ bằng dấu cách hoặc loại bỏ từ dừng . Tuy nhiên, các Mô hình Ngôn ngữ Lớn (LLM) hiện đại sử dụng các thuật toán từ con phức tạp hơn, chẳng hạn như Mã hóa Cặp Byte (BPE) hoặc WordPiece. Các thuật toán này hợp nhất lặp đi lặp lại các cặp ký tự thường xuyên nhất, cho phép mô hình xử lý các từ hiếm bằng cách chia chúng thành các thành phần con quen thuộc (ví dụ: "smartphones" trở thành "smart" + "phones"). Cách tiếp cận này cân bằng kích thước từ vựng với khả năng biểu diễn ngôn ngữ phức tạp.

Phân tích cú pháp trực quan trong thị giác máy tính

Theo truyền thống, các mô hình thị giác máy tính (CV) như mạng nơ-ron tích chập (CNN) xử lý các điểm ảnh bằng cách sử dụng cửa sổ trượt. Sự ra đời của Vision Transformer (ViT) đã thay đổi mô hình này bằng cách áp dụng phương pháp mã hóa token cho hình ảnh. Hình ảnh được chia thành các mảng có kích thước cố định (ví dụ: 16x16 pixel), sau đó được làm phẳng và chiếu tuyến tính. Những "token hình ảnh" này cho phép mô hình sử dụng cơ chế tự chú ý để học các mối quan hệ toàn cục trên toàn bộ hình ảnh, tương tự như cách Transformer xử lý một câu.

Các Ứng dụng Thực tế

Mã hóa token là động lực thầm lặng đằng sau nhiều ứng dụng trí tuệ nhân tạo được sử dụng trong môi trường sản xuất hiện nay.

  1. Phát hiện đối tượng với từ vựng mở: Các kiến trúc tiên tiến như YOLO -World sử dụng phương pháp mô hình đa phương thức . Khi người dùng nhập một lời nhắc như "người đội mũ đỏ", hệ thống sẽ phân tách văn bản này thành các token và ánh xạ nó vào cùng không gian đặc trưng với dữ liệu hình ảnh. Điều này cho phép học không cần dữ liệu huấn luyện (zero-shot learning ), cho phép mô hình... detect các đối tượng mà nó không được huấn luyện một cách rõ ràng bằng cách đối sánh các mã văn bản với các đặc điểm hình ảnh.
  2. Nghệ thuật và Thiết kế Tạo sinh: Trong việc tạo hình ảnh từ văn bản , các lời nhắc của người dùng được mã hóa thành các token để hướng dẫn quá trình lan truyền. Mô hình sử dụng các token này để điều kiện hóa quá trình tạo hình ảnh, đảm bảo hình ảnh kết quả phù hợp với các khái niệm ngữ nghĩa (ví dụ: "hoàng hôn", "bãi biển") được trích xuất trong giai đoạn mã hóa token.

Python Ví dụ: Phát hiện dựa trên mã thông báo

Ví dụ sau đây minh họa cách ultralytics Gói này sử dụng phương pháp phân tách văn bản ngầm định bên trong. YOLO - Quy trình làm việc toàn cầu. Bằng cách định nghĩa các lớp tùy chỉnh, mô hình sẽ phân tách các chuỗi này thành các từ khóa để tìm kiếm các đối tượng cụ thể một cách linh hoạt.

from ultralytics import YOLO

# Load a pre-trained YOLO-World model capable of text-based detection
model = YOLO("yolov8s-world.pt")

# Define custom classes; these are tokenized internally to guide the model
# The model will look for visual features matching these text tokens
model.set_classes(["backpack", "bus"])

# Run prediction on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results (only detects the tokenized classes defined above)
results[0].show()

Tác động đến hiệu suất mô hình

Việc lựa chọn chiến lược mã hóa từ (tokenization) ảnh hưởng trực tiếp đến độ chính xác và hiệu quả tính toán. Mã hóa từ không hiệu quả có thể dẫn đến lỗi "ngoài từ vựng" trong xử lý ngôn ngữ tự nhiên (NLP) hoặc mất các chi tiết nhỏ trong phân tích hình ảnh. Các framework như PyTorchTensorFlow cung cấp các công cụ linh hoạt để tối ưu hóa bước này. Khi các kiến trúc phát triển — chẳng hạn như YOLO26 hiện đại — việc xử lý dữ liệu hiệu quả đảm bảo rằng các mô hình có thể chạy suy luận thời gian thực trên nhiều phần cứng khác nhau, từ GPU đám mây mạnh mẽ đến các thiết bị biên. Các nhóm quản lý quy trình dữ liệu phức tạp này thường dựa vào Nền tảng Ultralytics để đơn giản hóa việc chú thích tập dữ liệu, huấn luyện mô hình và triển khai.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay