了解词元如何作为AI中信息的基本单元。探索它们在自然语言处理 (NLP)、计算机视觉和使用 YOLO26 进行开放词汇检测中的作用。
在现代人工智能的复杂架构中,Token代表着模型处理信息的基本原子单元。在算法能够解释句子、分析软件脚本或识别图像中的对象之前,原始输入数据必须被分解成这些离散的、标准化的元素。这种分割是数据预处理中的关键一步,将非结构化输入转换为神经网络可以高效计算的数值格式。虽然人类将语言视为连续的思想流,或将图像视为无缝的视觉场景,但计算模型需要这些细粒度的构建块来执行模式识别和语义分析等操作。
要理解机器学习的机制,区分数据单元及其创建过程至关重要。这种区分有助于避免在设计数据管道和在Ultralytics Platform上准备训练材料时产生混淆。
Token的性质因所处理数据的模态而异,尤其是在文本和视觉领域之间。
在自然语言处理(NLP)领域,Token是大型语言模型(LLM)的输入。早期方法严格映射到整个单词,但现代架构利用了字节对编码(BPE)等子词算法。这种方法允许模型通过将罕见词分解为有意义的音节来处理它们,平衡词汇量和语义覆盖范围。例如,单词“unhappiness”可能会被Token化为“un”、“happi”和“ness”。
随着Vision Transformer (ViT)的出现,Token化的概念已扩展到计算机视觉领域。与在滑动窗口中处理像素的传统卷积网络不同,Transformer将图像划分为固定大小的补丁网格(例如16x16像素)。每个补丁都被展平并视为一个独特的视觉Token。这种方法使模型能够使用自注意力机制来理解图像不同部分之间的关系,类似于Google Research最初将Transformer应用于文本的方式。
在无数应用中,Token充当着人类数据与机器智能之间的桥梁。
以下代码片段演示了如何 ultralytics 包使用文本Token来引导
物体检测。虽然最先进的
YOLO26 推荐用于高速、固定类别的推理,YOLO-World架构独特地允许用户在运行时将类别定义为文本Token。
from ultralytics import YOLO
# Load a pre-trained YOLO-World model capable of understanding text tokens
model = YOLO("yolov8s-world.pt")
# Define specific classes; these text strings are tokenized internally
# The model will look specifically for these "tokens" in the visual data
model.set_classes(["bus", "backpack"])
# Run prediction on an image using the defined tokens
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results showing only the tokenized classes
results[0].show()
理解Token对于驾驭生成式AI和高级分析的领域至关重要。无论是让聊天机器人流利对话,还是帮助视觉系统区分细微的对象类别,Token仍然是PyTorch和TensorFlow等框架使用的机器智能的基本“货币”。

开启您的机器学习未来之旅