术语表

令牌化

了解标记化在 NLP 和 ML 中的作用!了解如何将文本分解为标记,从而增强情感分析和文本生成等人工智能任务。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

标记化是人工智能(AI)机器学习(ML)中的一个基本预处理步骤,在自然语言处理(NLP)中尤为重要。它包括将文本序列或其他数据分解成更小的、可管理的单元,称为标记。这些标记是算法用来理解和处理信息的基本构件,可将句子或段落等原始输入转化为适合机器学习模型分析的格式。这一过程至关重要,因为计算机理解文本的方式与人类不同;它们需要将数据结构化为离散的片段。

令牌化的工作原理

标记化的核心思想是分割。对于文本数据,这通常意味着根据预定义的规则或学习模式将句子分割成单词、子单词甚至单个字符。例如,句子Ultralytics YOLO11 功能强大 "可能会被标记为单个单词: ["Ultralytics", "YOLO11", "is", "powerful"].所选的具体方法在很大程度上取决于任务和所使用的模型结构。

常见的技术包括根据空白和标点符号分割文本。不过,通常需要采用更先进的方法,尤其是在处理大量词汇或在训练过程中未见过的单词时。字节对编码(BPE)WordPiece等技术可将单词分割成更小的子单词单元。这些技术经常用于BERTGPT-4大型语言模型(LLM)中,以有效管理词汇量并优雅地处理未知单词。标记化策略的选择会极大地影响模型的性能和计算效率。

相关性和实际应用

标记化至关重要,因为大多数 ML 模型,尤其是深度学习架构,都需要数字输入,而不是原始文本。通过将文本转换为离散的标记,我们可以将这些标记映射为数字表示,如嵌入。这些数字矢量可以捕捉语义和关系,从而让使用诸如 PyTorchTensorFlow等框架构建的模型从数据中学习模式。这一基础步骤是众多人工智能应用的基础:

  1. 自然语言处理(NLP):标记化几乎是所有 NLP 任务的核心。

    • 机器翻译: Google 翻译等服务会将源语言的输入句子标记化,使用复杂的模型(通常基于Transformer架构)处理这些标记,然后生成目标语言的标记,最后将其组合成翻译后的句子。
    • 情感分析:要确定客户评论是正面的还是负面的,首先要对文本进行标记化。然后,模型会对这些标记(及其数字表示)进行分析,从而对整体情感进行分类。了解有关情感分析的更多信息提示调整等技术也依赖于对标记序列的处理。
  2. 计算机视觉(CV):虽然传统上与 NLP 相关,但这一概念已扩展到计算机视觉 (CV)

    • 视觉变换器 (ViT):视觉转换器(ViT)等模型中,图像被分割成固定大小的斑块。这些斑块被视为 "视觉标记",并被平铺成序列。然后将这些序列输入变换器网络,该网络利用自我注意等机制来理解不同图像部分之间的关系,这与 NLP 中处理文本标记的方式类似。这样就能完成图像分类物体检测等任务。像Segment Anything Model(SAM)这样的模型也利用类似于标记的概念来进行图像分割
    • 多模态模型: CLIPYOLO等模型通过处理文本标记和视觉标记(或图像特征),在视觉和语言之间架起了一座桥梁,可执行基于文本描述的零镜头物体检测等任务。

令牌化与令牌

区分 "令牌化 "和"令牌"很重要。

  • 标记化:指将数据分解成更小单位的过程。这是一个预处理步骤。
  • 标记:指标记化处理的结果--模型处理的单个单元(单词、子单词、字符或图像片段)。

了解标记化是掌握人工智能模型如何解释和学习各种数据类型的基础。管理数据集和训练模型通常需要使用Ultralytics HUB 等平台,这些平台有助于简化数据预处理模型训练工作流程,其中通常隐式或显式地涉及标记化数据。随着人工智能的发展,标记化方法也在不断调整,在为自动驾驶汽车医学图像分析等领域的文本生成到复杂视觉理解等任务建立更复杂的模型方面发挥着关键作用。

阅读全部