深圳Yolo 视觉
深圳
立即加入
词汇表

分词 (Tokenization)

探索分词在自然语言处理和机器学习中的强大功能! 了解如何将文本分解为 tokens,从而增强情感分析和文本生成等人工智能任务。

分词是将原始数据流(如文本、图像或音频)分解为更小、更易管理的单元(称为词元)的算法过程。这种转换在数据预处理管道中起着关键桥梁作用,将非结构化输入转换为人工智能(AI)系统能够解读的数值格式。 计算机无法天然理解人类语言或视觉场景,必须通过数值表示才能执行计算。工程师将数据分割为令牌后,神经网络便能将这些单元映射为嵌入向量——这种向量表示形式能捕捉语义含义。若缺少这一基础步骤,机器学习模型将无法识别模式、学习语境,更无法处理现代训练所需的海量数据集

令牌化与令牌

尽管在深度学习讨论中这两个术语常被并列提及,但区分方法与结果有助于理解工作流程。

  • Tokenization is the process (the verb). It refers to the specific set of rules or algorithms used to split the data. For text, this might involve using libraries like NLTK or spaCy to determine where one unit ends and another begins.
  • 令牌 是该过程生成的个体单元,例如单个词、子词、字符或像素块。

跨领域方法

数据模态的不同会显著影响分词策略的选择,进而影响基础模型对世界的认知方式。

NLP 中的文本标记化

在自然语言处理(NLP)领域,目标是在segment 的同时保留语义。早期方法依赖于简单的技术,如通过空格分隔单词或移除停用词。然而,现代大型语言模型(LLMs)采用了更复杂的亚词算法,例如字节对编码(BPE)或词片(WordPiece)。这些算法通过迭代合并最频繁的字符对,使模型能够通过将罕见词分解为熟悉的子组件(如 字节对编码(BPE)或WordPiece。这些算法 通过迭代合并高频字符对,使模型能将罕见词汇分解为 常见子组件(如"smartphones"分解为"smart" + "phones")。该方法 在词汇量规模与复杂语言表征能力之间实现了平衡。

计算机视觉中的视觉标记化

传统上,计算机视觉(CV)模型如卷积神经网络(CNN)采用滑动窗口处理像素。视觉Transformer ViT)的出现通过将图像进行分词化处理,改变了这一范式。 图像被切分为固定尺寸的片段(例如16x16像素), 随后被展平并进行线性投影。这些"视觉标记"使模型能够利用 自注意力机制学习图像全局关系,类似于 Transformer 处理句子。

实际应用

令牌化是当今生产环境中众多人工智能应用背后默默运转的引擎。

  1. 开放词汇对象检测:先进架构YOLO 多模态模型方法。当用户输入"戴红帽的人"等提示时,系统会将文本分词并映射至与视觉数据相同的特征空间。这实现了零样本学习,使模型能够通过匹配文本分词与视觉特征,detect 未经过显式训练detect 。
  2. 生成式艺术与设计: 在文本转图像生成过程中,用户提示语会被令牌化以引导扩散过程。模型利用这些令牌来控制生成过程,确保最终图像与令牌化阶段提取的语义概念(如"日落"、"海滩")保持一致。

Python :基于令牌的检测

下面的示例演示了 ultralytics 该软件包在YOLO工作流中隐式使用文本分词功能。通过定义自定义类别,模型可对这些字符串进行分词处理,从而动态搜索特定对象。

from ultralytics import YOLO

# Load a pre-trained YOLO-World model capable of text-based detection
model = YOLO("yolov8s-world.pt")

# Define custom classes; these are tokenized internally to guide the model
# The model will look for visual features matching these text tokens
model.set_classes(["backpack", "bus"])

# Run prediction on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results (only detects the tokenized classes defined above)
results[0].show()

对模型性能的影响

分词策略的选择直接影响 准确率与计算效率。低效的 分词可能导致自然语言处理中的"词汇表外"错误,或在图像分析中 丢失精细细节。诸如 PyTorchTensorFlow 等框架提供了灵活工具来优化这一环节。随着架构演进——例如前沿的YOLO26模型——高效的数据处理确保模型能在从高性能云端GPU到边缘设备的各类硬件上实现实时推理。管理这些复杂数据流的工作团队通常Ultralytics 来优化数据集标注、模型训练及部署流程。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入