深圳Yolo 视觉
深圳
立即加入
词汇表

Token(令牌)

了解词元如何作为AI中信息的基本单元。探索它们在自然语言处理 (NLP)、计算机视觉和使用 YOLO26 进行开放词汇检测中的作用。

在现代人工智能的复杂架构中,Token代表着模型处理信息的基本原子单元。在算法能够解释句子、分析软件脚本或识别图像中的对象之前,原始输入数据必须被分解成这些离散的、标准化的元素。这种分割是数据预处理中的关键一步,将非结构化输入转换为神经网络可以高效计算的数值格式。虽然人类将语言视为连续的思想流,或将图像视为无缝的视觉场景,但计算模型需要这些细粒度的构建块来执行模式识别和语义分析等操作。

Token vs. Token化

要理解机器学习的机制,区分数据单元及其创建过程至关重要。这种区分有助于避免在设计数据管道和在Ultralytics Platform上准备训练材料时产生混淆。

  • 分词这是将原始数据分割成片段的算法过程(动词)。对于文本,这可能涉及使用像自然语言工具包 (NLTK)这样的库来确定一个单元的结束和另一个单元的开始。
  • Token:这是最终的输出(名词)。它是实际的数据块——例如一个词、一个子词或一个图像块——最终被映射到一个被称为 embedding 的数值向量。

不同AI领域的Token

Token的性质因所处理数据的模态而异,尤其是在文本和视觉领域之间。

NLP 中的文本标记

自然语言处理(NLP)领域,Token是大型语言模型(LLM)的输入。早期方法严格映射到整个单词,但现代架构利用了字节对编码(BPE)等子词算法。这种方法允许模型通过将罕见词分解为有意义的音节来处理它们,平衡词汇量和语义覆盖范围。例如,单词“unhappiness”可能会被Token化为“un”、“happi”和“ness”。

计算机视觉中的视觉标记

随着Vision Transformer (ViT)的出现,Token化的概念已扩展到计算机视觉领域。与在滑动窗口中处理像素的传统卷积网络不同,Transformer将图像划分为固定大小的补丁网格(例如16x16像素)。每个补丁都被展平并视为一个独特的视觉Token。这种方法使模型能够使用自注意力机制来理解图像不同部分之间的关系,类似于Google Research最初将Transformer应用于文本的方式。

实际应用

在无数应用中,Token充当着人类数据与机器智能之间的桥梁。

  1. 开放词汇目标检测:YOLO-World这样的先进模型采用多模态方法,其中文本Token与视觉特征交互。用户可以输入自定义文本提示(例如,“蓝色头盔”),模型会对其进行Token化并与图像中的对象进行匹配。这使得零样本学习成为可能,从而能够检测模型未明确训练过的对象。
  2. 生成式AI:在聊天机器人等文本生成系统中,AI通过预测序列中下一个Token的概率来运行。通过迭代选择最有可能的后续Token,系统构建出连贯的句子和段落,为从自动化客户支持到虚拟助手的各种工具提供支持。

Python示例:使用文本Token进行detect

以下代码片段演示了如何 ultralytics 包使用文本Token来引导 物体检测。虽然最先进的 YOLO26 推荐用于高速、固定类别的推理,YOLO-World架构独特地允许用户在运行时将类别定义为文本Token。

from ultralytics import YOLO

# Load a pre-trained YOLO-World model capable of understanding text tokens
model = YOLO("yolov8s-world.pt")

# Define specific classes; these text strings are tokenized internally
# The model will look specifically for these "tokens" in the visual data
model.set_classes(["bus", "backpack"])

# Run prediction on an image using the defined tokens
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results showing only the tokenized classes
results[0].show()

理解Token对于驾驭生成式AI和高级分析的领域至关重要。无论是让聊天机器人流利对话,还是帮助视觉系统区分细微的对象类别,Token仍然是PyTorchTensorFlow等框架使用的机器智能的基本“货币”。

让我们一起共建AI的未来!

开启您的机器学习未来之旅