Khám phá sức mạnh của token hóa trong NLP và ML! Tìm hiểu cách chia văn bản thành các token giúp tăng cường các tác vụ AI như phân tích tình cảm và tạo văn bản.
Token hóa là quá trình cơ bản chuyển đổi một luồng dữ liệu thô—chẳng hạn như văn bản, mã hoặc hình ảnh—thành các đơn vị nhỏ hơn, rời rạc được gọi là token. Sự chuyển đổi này đóng vai trò là cầu nối quan trọng trong quy trình tiền xử lý dữ liệu , chuyển đổi thông tin phi cấu trúc của con người sang định dạng số mà các hệ thống Trí tuệ Nhân tạo (AI) có thể diễn giải. Bằng cách chia nhỏ dữ liệu phức tạp thành các phần dễ quản lý, token hóa cho phép các mô hình học máy xác định các mẫu, tìm hiểu các mối quan hệ ngữ nghĩa và thực hiện các tác vụ suy luận phức tạp. Nếu không có bước khởi đầu này, các mạng nơ-ron nhân tạo hỗ trợ công nghệ hiện đại sẽ không thể xử lý khối lượng lớn dữ liệu cần thiết cho việc huấn luyện.
Mặc dù các thuật ngữ này thường được sử dụng gần nhau, nhưng điều quan trọng là phải phân biệt phương pháp với kết quả.
Ứng dụng của mã hóa thay đổi đáng kể tùy thuộc vào loại dữ liệu được xử lý, mặc dù mục tiêu cuối cùng của việc tạo nhúng —biểu diễn vectơ của dữ liệu—vẫn giống nhau.
Trong Xử lý Ngôn ngữ Tự nhiên (NLP) , quy trình này bao gồm việc chia câu thành các từ, từ phụ hoặc ký tự. Các phương pháp ban đầu chỉ đơn giản là chia văn bản theo khoảng trắng, nhưng các Mô hình Ngôn ngữ Lớn (LLM) hiện đại sử dụng các thuật toán tiên tiến như Mã hóa Cặp Byte (BPE) để xử lý các từ hiếm một cách hiệu quả. Điều này cho phép các mô hình như GPT-4 xử lý từ vựng phức tạp mà không cần đến từ điển vô hạn.
Theo truyền thống, Thị giác Máy tính (CV) hoạt động trên các mảng điểm ảnh. Tuy nhiên, sự ra đời của Vision Transformer (ViT) đã giới thiệu khái niệm chia hình ảnh thành các mảng có kích thước cố định (ví dụ: 16x16 pixel). Các mảng này được làm phẳng và được coi là các mã thông báo trực quan, cho phép mô hình sử dụng khả năng tự chú ý để cân nhắc tầm quan trọng của các vùng hình ảnh khác nhau, tương tự như cách xử lý một câu.
Mã hóa không chỉ là một khái niệm lý thuyết; nó hỗ trợ nhiều ứng dụng AI được sử dụng hàng ngày.
Ví dụ sau đây minh họa cách ultralytics sử dụng mã thông báo ngầm trong
YOLO -Mô hình thế giới quy trình làm việc. Các
.set_classes() phương pháp mã hóa danh sách văn bản để hướng dẫn tiêu điểm phát hiện của mô hình một cách động.
from ultralytics import YOLO
# Load a pre-trained YOLO-World model
model = YOLO("yolov8s-world.pt")
# Define custom classes; the model tokenizes these strings to search for specific objects
model.set_classes(["backpack", "person"])
# Run prediction on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results (only detects the tokenized classes defined above)
results[0].show()
Việc lựa chọn chiến lược mã hóa ảnh hưởng trực tiếp đến độ chính xác và hiệu quả tính toán. Mã hóa không hiệu quả có thể dẫn đến lỗi "ngoài vốn từ vựng" trong NLP hoặc mất chi tiết chi tiết trong phân đoạn ảnh . Các nền tảng như PyTorch và TensorFlow cung cấp các công cụ linh hoạt để tối ưu hóa bước này. Khi các kiến trúc phát triển — chẳng hạn như YOLO11 mới nhất — việc xử lý dữ liệu hiệu quả đảm bảo các mô hình có thể chạy suy luận thời gian thực trên nhiều phần cứng khác nhau, từ GPU đám mây mạnh mẽ đến các thiết bị biên.