敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

分词 (Tokenization)

探索分词在自然语言处理和机器学习中的强大功能! 了解如何将文本分解为 tokens,从而增强情感分析和文本生成等人工智能任务。

分词是将数据流(例如原始文本或图像)分解为更小的离散单元(称为token)的基础过程。这是几乎所有人工智能(AI)系统的数据预处理流程中的关键第一步。通过将非结构化数据转换为标准化格式,分词使机器学习模型能够有效地解释、分析和学习模式。如果没有这一步,大多数模型将无法处理为现代AI应用提供支持的海量且多样化的数据。

相关性和实际应用

分词至关重要,因为大多数深度学习架构需要数值输入,而不是原始文本或像素。通过将数据转换为离散的token,我们可以将这些token映射到数值表示,例如嵌入(embeddings)。这些数值向量捕获语义和关系,从而允许使用PyTorchTensorFlow等框架构建的模型从数据中学习。这一基础步骤是众多AI应用的基础:

  1. 自然语言处理 (NLP): 词语切分是几乎所有 NLP 任务的核心。

    • 机器翻译: 诸如 Google 翻译 之类的服务会对源语言中的输入句子进行 token 化,使用复杂模型(通常基于 Transformer 架构)处理这些 token,然后在目标语言中生成 token,最后将这些 token 组装成翻译后的句子。
    • 情感分析: 为了确定客户评论是正面还是负面,首先对文本进行分词。然后,模型分析这些token以对整体情感进行分类。了解更多关于情感分析的信息。诸如prompt tuning之类的技术也依赖于操纵token序列。对于开发人员,诸如spaCyNLTK之类的库提供了强大的分词工具。
  2. 计算机视觉(CV): 虽然传统上与 NLP 相关联,但该概念也扩展到计算机视觉。

常用分词方法

存在不同的数据分词策略,每种策略都有其自身的优缺点。方法的选择会显著影响模型性能。

  • 基于单词的Token化: 此方法基于空格和标点符号拆分文本。虽然简单直观,但它在处理大型词汇表和“词汇表外”单词(训练期间未见过的单词)时会遇到困难。
  • 基于字符的分词:此方法将文本分解为单个字符。它解决了词汇表外的问题,但可能导致非常长的序列,从而失去高级语义,从而使模型更难学习单词之间的关系。
  • 子词分词: 这是一种混合方法,已成为现代 NLP 模型的标准。它将单词分解为更小、更有意义的子单元。常用词保留为单个词元,而稀有词则拆分为多个子词词元。此方法有效地处理复杂单词并避免词汇外问题。流行的算法包括 字节对编码 (BPE)WordPiece,它们用于 BERTGPT 等模型。

Tokenization vs. Tokens(分词 vs. 令牌)

务必区分“分词 (Tokenization)”和“Token”。

  • Tokenization(分词): 指将数据分解成更小单元的过程。这是语言模型工作原理的基础预处理步骤。
  • Token: 指的是 tokenization 过程的结果——模型处理的单个单元(单词、子词、字符或图像块)。

理解 Tokenization 是掌握 AI 模型如何从不同数据类型中解释和学习的基础。管理数据集和训练模型通常涉及 Ultralytics HUB 等平台,这些平台有助于简化数据预处理模型训练工作流程。随着 AI 的发展,Tokenization 方法不断适应,在构建更复杂的模型方面发挥着关键作用,这些模型适用于从文本生成自动驾驶汽车医学图像分析等领域的复杂视觉理解等任务。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板