敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

Token(令牌)

了解作为 AI 模型构建基石的 tokens 如何驱动 NLP、计算机视觉以及情感分析和目标检测等任务。

在人工智能中,token 是模型处理的基本、离散的数据单元。在 AI 模型可以分析文本或图像之前,原始数据必须分解成这些可管理的部分。对于语言模型,token 可以是一个单词、一个单词的一部分(一个子词)或一个字符。对于计算机视觉 (CV)模型,token 可以是图像的一个小的、固定大小的patch。这种分解数据的过程是数据预处理管道中的关键第一步,因为它将复杂的非结构化数据转换为神经网络可以理解的结构化格式。

Token vs. Token化

区分“token”(令牌)和“tokenization”(分词)至关重要。

  • Token(令牌): 分解过程产生的单个单元。它是实际的数据片段,例如单词“learn”或 16x16 像素的图像块,会被输入到模型中。
  • Tokenization(分词): 执行此分解的方法或过程。它是将文本序列或图像转换为 token 序列的动作。

简而言之,Tokenization 是一种行为,而 Token 是该行为的结果。

Token的类型及其重要性

Token是AI模型感知和解释数据的构建块。数据被token化后,每个token通常被映射到称为嵌入(embedding)的数值向量表示。这些嵌入捕获语义意义和上下文,从而允许使用PyTorchTensorFlow等框架构建的模型学习复杂的模式。

  • 单词和子词Token:在自然语言处理(NLP)中,使用整个单词作为Token可能会导致庞大的词汇表和未知单词的问题。使用字节对编码(BPE)WordPiece等算法的子词Token化是一种常见的解决方案。它将稀有单词分解为更小、更有意义的部分。例如,单词“tokenization”可能会变成两个Token:“token”和“##ization”。BERTGPT-4等模型使用的这种方法有助于模型处理复杂的词汇和语法结构。您可以在Hugging Face Tokenizers等库中探索现代实现。

  • 视觉 Tokens:tokens 的概念从文本扩展到计算机视觉。在像 Vision Transformer (ViT) 这样的模型中,图像被分成一个图像块网格(例如,16x16 像素)。每个图像块都被展平并被视为“视觉 token”。这使得强大的 Transformer 架构(擅长使用自注意力机制处理序列)能够执行图像分类目标检测等任务。这种基于 token 的方法也是理解图像和文本的多模态模型(如CLIP)的基础。

实际应用

Token 的使用是无数 AI 系统的基础,从简单的应用程序到复杂的、最先进的模型。

  1. 机器翻译:诸如谷歌翻译之类的服务在很大程度上依赖于 tokens。当您输入一个句子时,它首先被分解成一个文本 tokens 序列。一个复杂的序列到序列模型处理这些 tokens,理解它们的集体含义,并在目标语言中生成一个新的 tokens 序列。然后将这些输出 tokens 重新组合成一个连贯的翻译句子。此过程支持跨数十种语言的实时翻译。

  2. 自动驾驶汽车:在自动驾驶汽车领域,模型必须实时解释复杂的视觉场景。像 Ultralytics YOLO11 这样的模型会处理摄像头数据流,以执行目标跟踪实例分割等任务。虽然像 YOLO 这样的经典基于 CNN 的模型不会像 Transformer 那样显式使用“tokens”,但专为检测设计的视觉 Transformer 变体会使用。它们将视觉输入分解为 tokens(patches),以高精度识别和定位行人、其他车辆和交通信号。对环境的这种 token 化理解对于安全导航至关重要。使用像 Ultralytics HUB 这样的平台可以简化从数据收集到模型部署的整个工作流程。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板