Token
Tìm hiểu cách các token đóng vai trò là đơn vị thông tin cơ bản trong AI. Khám phá vai trò của chúng trong NLP, thị giác máy tính và phát hiện từ vựng mở (open-vocabulary detection) với YOLO26.
Trong kiến trúc tinh vi của trí tuệ nhân tạo hiện đại, một token đại diện cho đơn vị thông tin cơ bản, nguyên tử mà mô hình xử lý. Trước khi một thuật toán có thể diễn giải một câu, phân tích một tập lệnh phần mềm hoặc nhận diện đối tượng trong một hình ảnh, dữ liệu đầu vào thô phải được phân tách thành các phần tử rời rạc, được tiêu chuẩn hóa này. Quá trình phân đoạn này là một bước quan trọng trong tiền xử lý dữ liệu, chuyển đổi các đầu vào phi cấu trúc thành định dạng số mà các mạng nơ-ron có thể tính toán hiệu quả. Trong khi con người cảm nhận ngôn ngữ như một luồng suy nghĩ liên tục hoặc hình ảnh như các cảnh quay liền mạch, các mô hình tính toán đòi hỏi những khối xây dựng chi tiết này để thực hiện các thao tác như nhận dạng mẫu và phân tích ngữ nghĩa.
Link to this sectionToken so với Tokenization#
Để nắm bắt cơ chế của học máy, việc phân biệt giữa đơn vị dữ liệu và quy trình được sử dụng để tạo ra nó là rất cần thiết. Sự phân biệt này ngăn chặn sự nhầm lẫn khi thiết kế các đường ống dữ liệu (data pipeline) và chuẩn bị tài liệu đào tạo trên Ultralytics Platform.
- Tokenization: Đây là quy trình thuật toán (động từ) phân tách dữ liệu thô thành các mảnh. Đối với văn bản, quá trình này có thể liên quan đến việc sử dụng các thư viện như Natural Language Toolkit (NLTK) để xác định nơi một đơn vị kết thúc và một đơn vị khác bắt đầu.
- Token: Đây là kết quả đầu ra (danh từ). Nó là khối dữ liệu thực tế—chẳng hạn như một từ, một phần của từ hoặc một vùng hình ảnh—mà cuối cùng được ánh xạ tới một vector số được gọi là embedding.
Link to this sectionToken trong các lĩnh vực AI khác nhau#
Bản chất của một token thay đổi đáng kể tùy thuộc vào phương thức của dữ liệu đang được xử lý, đặc biệt là giữa miền văn bản và miền thị giác.
Link to this sectionToken văn bản trong NLP#
Trong lĩnh vực Xử lý Ngôn ngữ Tự nhiên (NLP), các token là đầu vào cho các Mô hình Ngôn ngữ Lớn (LLM). Các cách tiếp cận ban đầu ánh xạ nghiêm ngặt tới từng từ nguyên vẹn, nhưng các kiến trúc hiện đại sử dụng các thuật toán dựa trên phần của từ như Byte Pair Encoding (BPE). Phương pháp này cho phép các mô hình xử lý các từ hiếm gặp bằng cách chia chúng thành các âm tiết có nghĩa, cân bằng giữa kích thước từ vựng và độ phủ ngữ nghĩa. Ví dụ, từ "unhappiness" có thể được token hóa thành "un", "happi", và "ness".
Link to this sectionToken thị giác trong thị giác máy tính#
Khái niệm token hóa đã mở rộng sang thị giác máy tính với sự ra đời của Vision Transformer (ViT). Không giống như các mạng tích chập truyền thống xử lý các pixel trong các cửa sổ trượt, các Transformer chia một hình ảnh thành một lưới các bản vá (patch) có kích thước cố định (ví dụ: 16x16 pixel). Mỗi bản vá được làm phẳng và xử lý như một token thị giác riêng biệt. Cách tiếp cận này cho phép mô hình sử dụng các cơ chế self-attention để hiểu mối quan hệ giữa các phần xa nhau của một hình ảnh, tương tự như cách Google Research đã áp dụng các transformer vào văn bản ban đầu.
Link to this sectionCác ứng dụng trong thực tế#
Các token đóng vai trò là cầu nối giữa dữ liệu của con người và trí tuệ máy móc trong vô số ứng dụng.
-
Phát hiện đối tượng từ vựng mở (Open-Vocabulary Object Detection): Các mô hình tiên tiến như YOLO-World sử dụng phương pháp đa phương thức, nơi các token văn bản tương tác với các đặc trưng thị giác. Người dùng có thể nhập các câu lệnh văn bản tùy chỉnh (ví dụ: "mũ bảo hiểm màu xanh"), mà mô hình sẽ token hóa và khớp với các đối tượng trong hình ảnh. Điều này cho phép thực hiện zero-shot learning, cho phép phát hiện các đối tượng mà mô hình không được huấn luyện rõ ràng trước đó.
-
AI tạo sinh: Trong các hệ thống tạo văn bản như chatbot, AI hoạt động bằng cách dự đoán xác suất của token tiếp theo trong một chuỗi. Bằng cách chọn lọc lặp đi lặp lại token tiếp theo có khả năng cao nhất, hệ thống xây dựng các câu và đoạn văn mạch lạc, cung cấp năng lượng cho các công cụ từ hỗ trợ khách hàng tự động đến các trợ lý ảo.
Link to this sectionVí dụ Python: Sử dụng Token văn bản để phát hiện#
Đoạn mã sau đây minh họa cách gói ultralytics sử dụng các token văn bản để hướng dẫn phát hiện đối tượng. Trong khi YOLO26 hiện đại nhất được khuyến nghị cho suy luận tốc độ cao, lớp cố định, kiến trúc YOLO-World cho phép người dùng định nghĩa các lớp dưới dạng token văn bản tại thời điểm chạy một cách độc đáo.
from ultralytics import YOLO
# Load a pre-trained YOLO-World model capable of understanding text tokens
model = YOLO("yolov8s-world.pt")
# Define specific classes; these text strings are tokenized internally
# The model will look specifically for these "tokens" in the visual data
model.set_classes(["bus", "backpack"])
# Run prediction on an image using the defined tokens
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results showing only the tokenized classes
results[0].show()Hiểu về các token là điều cơ bản để điều hướng trong bối cảnh AI tạo sinh và phân tích nâng cao. Cho dù là hỗ trợ một chatbot đàm thoại lưu loát hay giúp một hệ thống thị giác phân biệt giữa các lớp đối tượng tinh vi, các token vẫn là loại tiền tệ thiết yếu của trí tuệ máy móc được sử dụng bởi các framework như PyTorch và TensorFlow.






