深圳Yolo 视觉
深圳
立即加入
词汇表

分词 (Tokenization)

探索标记化如何将原始文本和图像转换为AI就绪数据。了解Ultralytics YOLO26等模型使用的自然语言处理和计算机视觉方法。

分词(Tokenization)是将原始数据流(如文本、图像或音频)分解成更小、更易于管理的单元(称为 token)的算法过程。这种转换在 数据预处理 管道中扮演着关键桥梁的角色,将非结构化输入转换为 人工智能 (AI) 系统可以解释的数值格式。计算机无法固有地理解人类语言或视觉场景;它们需要数值表示来进行计算。通过将数据分割成 token,工程师使 神经网络 能够将这些单元映射到 嵌入 (embeddings)——捕获语义的向量表示。如果没有这一基本步骤,机器学习 模型将无法识别模式、学习上下文或处理现代训练所需的大量 数据集

令牌化与令牌

虽然这些术语在 深度学习 讨论中经常一起出现,但区分方法和结果有助于理解其工作流程。

  • 分词过程(动词)。它指的是用于分割数据的特定规则集或算法。对于文本,这可能涉及使用像NLTKspaCy这样的库来确定一个单元的结束和另一个单元的开始。
  • Token输出(名词)。它是该过程生成的单个单元,例如一个单词、一个子词、一个字符或一个像素块。

不同领域的方法

分词策略因数据模态的不同而显著变化,影响着 基础模型 对世界的感知方式。

NLP 中的文本标记化

自然语言处理 (NLP) 中,目标是在保留语义的同时对文本进行分段。早期方法依赖于简单的技术,例如通过空格分隔单词或移除 停用词。然而,现代 大型语言模型 (LLMs) 利用更复杂的子词算法,例如 字节对编码 (BPE) 或 WordPiece。这些算法迭代地合并最常见的字符对,使模型能够通过将稀有词分解为熟悉的子组件来处理它们(例如,“smartphones”变为“smart”+“phones”)。这种方法平衡了词汇量和表示复杂语言的能力。

计算机视觉中的视觉标记化

传统上,像 CNN 这样的 计算机视觉 (CV) 模型使用滑动窗口处理像素。Vision Transformer (ViT) 的引入通过将分词应用于图像改变了这一范式。图像被切分成固定大小的块(例如 16x16 像素),然后被展平并进行线性投影。这些“视觉 token”允许模型利用 自注意力 机制学习图像中的全局关系,类似于 Transformer 处理句子的方式。

实际应用

分词是当今生产环境中许多 AI 应用背后的无声引擎。

  1. 开放词汇目标检测:YOLO-World 这样的先进架构采用 多模态模型 方法。当用户输入“戴红帽的人”这样的提示时,系统会对文本进行分词,并将其映射到与视觉数据相同的特征空间。这使得 零样本学习 成为可能,模型可以通过将文本 token 与视觉特征匹配来 detect 未明确训练过的对象。
  2. 生成式艺术与设计:文本到图像 生成中,用户提示会被分词以指导扩散过程。模型使用这些 token 来调节生成,确保生成的图像与在分词阶段提取的语义概念(例如,“日落”、“海滩”)保持一致。

python 示例:基于 token 的 detect

下面的示例演示了 ultralytics 此软件包在 YOLO-World 工作流中隐式利用文本标记化。通过定义自定义类别,模型将这些字符串进行标记化,以动态搜索特定对象。

from ultralytics import YOLO

# Load a pre-trained YOLO-World model capable of text-based detection
model = YOLO("yolov8s-world.pt")

# Define custom classes; these are tokenized internally to guide the model
# The model will look for visual features matching these text tokens
model.set_classes(["backpack", "bus"])

# Run prediction on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results (only detects the tokenized classes defined above)
results[0].show()

对模型性能的影响

标记化策略的选择直接影响准确性和计算效率。低效的标记化可能导致自然语言处理中的“词汇表外”错误,或图像分析中丢失细粒度细节。像PyTorchTensorFlow这样的框架提供了灵活的工具来优化这一步骤。随着架构的演进——例如最先进的YOLO26——高效的数据处理确保模型能够在从强大的云 GPU 到边缘设备等多样化硬件上运行实时推理。管理这些复杂数据工作流的团队通常依赖Ultralytics Platform来简化数据集标注、模型训练和部署。

让我们一起共建AI的未来!

开启您的机器学习未来之旅