术语表

令牌化

了解标记化在 NLP 和 ML 中的作用!了解如何将文本分解为标记,从而增强情感分析和文本生成等人工智能任务。

标记化是将原始文本或图像等数据流分解成更小的、离散的单元(称为标记)的基础过程。这是几乎所有人工智能(AI)系统数据预处理管道中至关重要的第一步。通过将非结构化数据转换为标准化格式,标记化使机器学习模型能够有效地解释、分析和学习模式。如果没有这一步,大多数模型将无法处理庞大而多样的数据,而这些数据为现代人工智能应用提供了动力。

相关性和实际应用

标记化至关重要,因为大多数深度学习架构都需要数字输入,而不是原始文本或像素。通过将数据转换为离散的标记,我们就可以将这些标记映射为数字表示,如嵌入。这些数字向量可以捕捉语义和关系,让使用PyTorchTensorFlow等框架构建的模型能够从数据中学习。这一基础步骤是众多人工智能应用的基础:

  1. 自然语言处理(NLP)标记化几乎是所有 NLP 任务的核心。

    • 机器翻译: 谷歌翻译等服务会将源语言的输入句子标记化,使用复杂的模型(通常基于Transformer架构)处理这些标记,然后生成目标语言的标记,最后将其组合成翻译后的句子。
    • 情感分析:要确定客户评论是正面的还是负面的,首先要对文本进行标记化。然后,模型会对这些标记进行分析,从而对整体情感进行分类。了解有关情感分析的更多信息提示调整等技术也依赖于对标记序列的操作。对于开发人员来说,spaCyNLTK等库提供了强大的标记化工具。
  2. 计算机视觉(CV)虽然传统上与 NLP 有关,但这一概念已扩展到计算机视觉。

    • 视觉变换器 (ViT):视觉转换器(ViT)等模型中,图像被分割成固定大小的片段。正如最初的ViT 研究论文所解释的那样,这些斑块被视为 "视觉标记",并被平铺成序列。然后将这些序列输入变换器网络,该网络利用自我注意等机制来理解不同图像部分之间的关系。这样就能完成图像分类物体检测等任务。
    • 多模态模型: CLIPYOLO-World等模型通过处理文本标记和视觉标记来执行零镜头物体检测等任务,从而在视觉和语言之间架起了一座桥梁。同样,像Segment Anything Model (SAM)这样的高级图像分割模型也利用了类似标记的概念。

常见的标记化方法

对数据进行标记化有不同的策略,每种策略都有自己的利弊权衡。方法的选择会对模型性能产生重大影响。

  • 基于单词的标记化:这种方法根据空格和标点符号分割文本。这种方法虽然简单直观,但在处理大量词汇和 "词汇外 "词语(在训练过程中没有出现过的词语)时却很吃力。
  • 基于字符的标记化:这种方法将文本分解为单个字符。它解决了词汇不足的问题,但可能导致冗长的序列失去高级语义,使模型更难学习单词之间的关系。
  • 子词标记化:这是一种混合方法,已成为现代 NLP 模型的标准。它将单词分解为更小的、有意义的子单位。常用词保留为单个标记,而罕见词则被拆分成多个子词标记。这种方法能有效地处理复杂的单词,并避免词汇量不足的问题。流行的算法包括字节对编码 (BPE)WordPiece,它们被用于BERTGPT 等模型中。

令牌化与令牌

区分 "令牌化 "和"令牌"很重要。

  • 标记化:指将数据分解成更小单位的过程。这是一个预处理步骤,是语言模型工作的基础。
  • 标记:指标记化处理的结果--模型处理的单个单元(单词、子单词、字符或图像片段)。

了解标记化是掌握人工智能模型如何解释和学习各种数据类型的基础。管理数据集和训练模型通常需要使用Ultralytics HUB 等平台,这些平台有助于简化数据预处理模型训练工作流程。随着人工智能的发展,标记化方法也在不断调整,在为自动驾驶汽车医学图像分析等领域的文本生成到复杂视觉理解等任务建立更复杂的模型方面发挥着关键作用。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板