Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Token

Explore how tokens act as the atomic units of AI processing. Learn how the [Ultralytics Platform](https://platform.ultralytics.com) uses tokens for NLP and computer vision.

In the sophisticated architecture of modern artificial intelligence, a token represents the fundamental, atomic unit of information that a model processes. Before an algorithm can interpret a sentence, analyze a software script, or recognize objects in an image, the raw input data must be broken down into these discrete, standardized elements. This segmentation is a pivotal step in data preprocessing, transforming unstructured inputs into a numerical format that neural networks can efficiently compute. While humans perceive language as a continuous stream of thoughts or images as seamless visual scenes, computational models require these granular building blocks to perform operations like pattern recognition and semantic analysis.

Token so với Tokenization

To grasp the mechanics of machine learning, it is essential to distinguish between the data unit and the process used to create it. This differentiation prevents confusion when designing data pipelines and preparing training material on the Ultralytics Platform.

  • Tokenization: This is the algorithmic process (the verb) of splitting raw data into pieces. For text, this might involve using libraries like the Natural Language Toolkit (NLTK) to determine where one unit ends and another begins.
  • Token: This is the resulting output (the noun). It is the actual chunk of data—such as a word, a subword, or an image patch—that is eventually mapped to a numerical vector known as an embedding.

Các Token trong các lĩnh vực AI khác nhau

The nature of a token varies significantly depending on the modality of the data being processed, particularly between textual and visual domains.

Mã thông báo văn bản trong NLP

In the field of Natural Language Processing (NLP), tokens are the inputs for Large Language Models (LLMs). Early approaches mapped strictly to whole words, but modern architectures utilize subword algorithms like Byte Pair Encoding (BPE). This method allows models to handle rare words by breaking them into meaningful syllables, balancing vocabulary size with semantic coverage. For instance, the word "unhappiness" might be tokenized into "un", "happi", and "ness".

Mã thông báo trực quan trong thị giác máy tính

The concept of tokenization has expanded into computer vision with the advent of the Vision Transformer (ViT). Unlike traditional convolutional networks that process pixels in sliding windows, Transformers divide an image into a grid of fixed-size patches (e.g., 16x16 pixels). Each patch is flattened and treated as a distinct visual token. This approach enables the model to use self-attention mechanisms to understand the relationship between distant parts of an image, similar to how Google Research originally applied transformers to text.

Các Ứng dụng Thực tế

Token đóng vai trò là cầu nối giữa dữ liệu của con người và trí tuệ máy móc trong vô số ứng dụng.

  1. Phát hiện đối tượng với từ vựng mở: Các mô hình tiên tiến như YOLO -World sử dụng phương pháp đa phương thức, trong đó các mã văn bản tương tác với các đặc điểm hình ảnh. Người dùng có thể nhập các lời nhắc văn bản tùy chỉnh (ví dụ: "mũ bảo hiểm màu xanh"), mà mô hình sẽ phân tách thành mã và so khớp với các đối tượng trong hình ảnh. Điều này cho phép học không cần huấn luyện trước , cho phép phát hiện các đối tượng mà mô hình không được huấn luyện cụ thể.
  2. Trí tuệ nhân tạo tạo sinh: Trong các hệ thống tạo văn bản như chatbot, AI hoạt động bằng cách dự đoán xác suất của từ tiếp theo trong một chuỗi. Bằng cách chọn lặp đi lặp lại từ tiếp theo có khả năng xảy ra cao nhất, hệ thống sẽ xây dựng các câu và đoạn văn mạch lạc, hỗ trợ các công cụ từ hỗ trợ khách hàng tự động đến trợ lý ảo .

Python Ví dụ: Sử dụng mã thông báo văn bản để phát hiện

Đoạn mã sau đây minh họa cách thức hoạt động của... ultralytics package uses text tokens to guide phát hiện đối tượng. While the state-of-the-art YOLO26 is recommended for high-speed, fixed-class inference, the YOLO-World architecture uniquely allows users to define classes as text tokens at runtime.

from ultralytics import YOLO

# Load a pre-trained YOLO-World model capable of understanding text tokens
model = YOLO("yolov8s-world.pt")

# Define specific classes; these text strings are tokenized internally
# The model will look specifically for these "tokens" in the visual data
model.set_classes(["bus", "backpack"])

# Run prediction on an image using the defined tokens
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results showing only the tokenized classes
results[0].show()

Understanding tokens is fundamental to navigating the landscape of generative AI and advanced analytics. Whether enabling a chatbot to converse fluently or helping a vision system distinguish between subtle object classes, tokens remain the essential currency of machine intelligence used by frameworks like PyTorch and TensorFlow.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay