Khám phá sức mạnh của token hóa trong NLP và ML! Tìm hiểu cách chia văn bản thành các token giúp tăng cường các tác vụ AI như phân tích tình cảm và tạo văn bản.
Tokenization là quá trình thuật toán phân tách luồng dữ liệu thô—như văn bản, hình ảnh hoặc âm thanh—thành các đơn vị nhỏ hơn, dễ quản lý hơn gọi là token. Sự chuyển đổi này đóng vai trò là cầu nối quan trọng trong quy trình tiền xử lý dữ liệu , chuyển đổi dữ liệu đầu vào không cấu trúc thành định dạng số mà hệ thống trí tuệ nhân tạo (AI) có thể hiểu được. Máy tính không thể tự hiểu ngôn ngữ của con người hoặc các cảnh vật trực quan; chúng cần các biểu diễn số để thực hiện các phép tính. Bằng cách phân đoạn dữ liệu thành token, các kỹ sư cho phép mạng nơ-ron ánh xạ các đơn vị này thành các embedding —các biểu diễn vectơ nắm bắt ý nghĩa ngữ nghĩa. Nếu không có bước cơ bản này, các mô hình học máy sẽ không thể xác định các mẫu, học ngữ cảnh hoặc xử lý các tập dữ liệu khổng lồ cần thiết cho việc huấn luyện hiện đại.
Mặc dù các thuật ngữ này thường được nhắc đến cùng nhau trong các cuộc thảo luận về học sâu , nhưng việc phân biệt phương pháp với kết quả sẽ giúp hiểu rõ quy trình làm việc.
Chiến lược mã hóa dữ liệu (tokenization) thay đổi đáng kể tùy thuộc vào phương thức xử lý dữ liệu, ảnh hưởng đến cách mô hình nền tảng nhận thức thế giới.
Trong Xử lý ngôn ngữ tự nhiên (NLP) , mục tiêu là segment Văn bản được dịch chính xác trong khi vẫn giữ nguyên ý nghĩa. Các phương pháp ban đầu dựa vào các kỹ thuật đơn giản như tách từ bằng dấu cách hoặc loại bỏ từ dừng . Tuy nhiên, các Mô hình Ngôn ngữ Lớn (LLM) hiện đại sử dụng các thuật toán từ con phức tạp hơn, chẳng hạn như Mã hóa Cặp Byte (BPE) hoặc WordPiece. Các thuật toán này hợp nhất lặp đi lặp lại các cặp ký tự thường xuyên nhất, cho phép mô hình xử lý các từ hiếm bằng cách chia chúng thành các thành phần con quen thuộc (ví dụ: "smartphones" trở thành "smart" + "phones"). Cách tiếp cận này cân bằng kích thước từ vựng với khả năng biểu diễn ngôn ngữ phức tạp.
Theo truyền thống, các mô hình thị giác máy tính (CV) như mạng nơ-ron tích chập (CNN) xử lý các điểm ảnh bằng cách sử dụng cửa sổ trượt. Sự ra đời của Vision Transformer (ViT) đã thay đổi mô hình này bằng cách áp dụng phương pháp mã hóa token cho hình ảnh. Hình ảnh được chia thành các mảng có kích thước cố định (ví dụ: 16x16 pixel), sau đó được làm phẳng và chiếu tuyến tính. Những "token hình ảnh" này cho phép mô hình sử dụng cơ chế tự chú ý để học các mối quan hệ toàn cục trên toàn bộ hình ảnh, tương tự như cách Transformer xử lý một câu.
Mã hóa token là động lực thầm lặng đằng sau nhiều ứng dụng trí tuệ nhân tạo được sử dụng trong môi trường sản xuất hiện nay.
Ví dụ sau đây minh họa cách ultralytics Gói này sử dụng phương pháp phân tách văn bản ngầm định bên trong. YOLO - Quy trình làm việc toàn cầu. Bằng cách định nghĩa các lớp tùy chỉnh, mô hình sẽ phân tách các chuỗi này thành các từ khóa để tìm kiếm các đối tượng cụ thể một cách linh hoạt.
from ultralytics import YOLO
# Load a pre-trained YOLO-World model capable of text-based detection
model = YOLO("yolov8s-world.pt")
# Define custom classes; these are tokenized internally to guide the model
# The model will look for visual features matching these text tokens
model.set_classes(["backpack", "bus"])
# Run prediction on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results (only detects the tokenized classes defined above)
results[0].show()
Việc lựa chọn chiến lược mã hóa từ (tokenization) ảnh hưởng trực tiếp đến độ chính xác và hiệu quả tính toán. Mã hóa từ không hiệu quả có thể dẫn đến lỗi "ngoài từ vựng" trong xử lý ngôn ngữ tự nhiên (NLP) hoặc mất các chi tiết nhỏ trong phân tích hình ảnh. Các framework như PyTorch và TensorFlow cung cấp các công cụ linh hoạt để tối ưu hóa bước này. Khi các kiến trúc phát triển — chẳng hạn như YOLO26 hiện đại — việc xử lý dữ liệu hiệu quả đảm bảo rằng các mô hình có thể chạy suy luận thời gian thực trên nhiều phần cứng khác nhau, từ GPU đám mây mạnh mẽ đến các thiết bị biên. Các nhóm quản lý quy trình dữ liệu phức tạp này thường dựa vào Nền tảng Ultralytics để đơn giản hóa việc chú thích tập dữ liệu, huấn luyện mô hình và triển khai.