术语表

代币

了解人工智能模型的构件--标记如何为 NLP、计算机视觉以及情感分析和物体检测等任务提供支持。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

人工智能(AI)机器学习(ML)领域,尤其是自然语言处理(NLP)领域,以及越来越多的计算机视觉领域,"标记 "代表了模型处理数据的最小单位。将标记视为人工智能模型用来理解和分析信息(无论是文本、图像还是其他形式的数据)的基本构件。它们对于将原始输入转换为算法可以解释和学习的格式至关重要,是许多复杂的人工智能任务的基础。

了解代币

代币是一个称为 令牌化.例如,在 NLP 中,可以将Ultralytics YOLO 快速而准确 "这样的句子标记为单个单词: ["Ultralytics", "YOLO", "is", "fast", "and", "accurate"].根据具体的标记化策略,标记也可以是子词单位(如 "Ultra"、"lytics"),甚至是单个字符。这种细分可将连续文本或复杂数据转化为易于管理的片段。

令牌之所以至关重要,是因为大多数深度学习模型,包括许多现代人工智能系统中使用的强大架构(如Transformers),都无法直接处理原始的非结构化数据。它们需要结构化的输入,通常是数字格式。标记化提供了这座桥梁。一旦数据被标记化,每个标记通常会被映射为数字表示,如词汇表中的 ID,或者更常见的称为嵌入的密集向量表示。这些嵌入式表示捕捉标记之间的语义关系,模型在训练过程中学习这些语义关系。

标记化方法

将数据分解为代币有不同的方法:

  • 基于单词的标记化:根据空格和标点符号分割文本。操作简单,但在处理大量词汇和不认识的单词时比较吃力。
  • 基于字符的标记化:使用单个字符作为标记。可处理任何单词,但会产生很长的序列。
  • 子词标记化:词和字符方法之间的平衡。字节对编码(BPE)WordPiece等技术可将单词分解为常见的子单元,从而有效处理大量词汇和稀有单词。这些技术被广泛应用于大型语言模型(LLM)中。

代币与相关概念

将标记与相关术语区分开来非常重要:

  • 标记与标记化:标记是输出单元(如Ultralytics"、"图像补丁"),而标记化是从原始数据中创建这些单元的过程
  • 标记与嵌入:标记是一个离散的输入单位。嵌入通常是表示标记的密集数字向量,以模型可以理解的方式捕捉其含义。在将标记输入模型之前,通常会将其转换为单词嵌入或视觉嵌入。

代币的应用

代币是各种人工智能领域的基础。下面是两个具体的例子:

  1. 机器翻译:Google 翻译等服务中,首先对一种语言的输入句子进行标记化。这些标记由序列到序列模型(通常是转换器)处理,然后生成代表目标语言翻译句子的标记。标记化的选择对翻译的准确性和流畅性有很大影响。像GPT-4BERT这样的 LLM 在翻译、文本生成情感分析等任务中严重依赖标记处理。提示调整提示链等技术涉及操作输入标记序列以指导模型行为。

  2. 使用变形器的计算机视觉:传统上,标记与 NLP 相关联,但现在标记已成为视觉变换器(ViTs)等高级计算机视觉模型的核心。在视觉变换器中,图像被分割成固定大小、不重叠的斑块(如 16x16 像素)。每个补丁都被视为一个 "视觉标记"。这些标记被线性嵌入并输入变换器架构,该架构使用注意力机制来分析图像不同部分之间的关系。这种方法可用于图像分类物体检测图像分割等任务。像Segment Anything Model(SAM)这样的模型就采用了这种基于标记的方法。即使在卷积模型中,如 Ultralytics YOLOv8或更新的 Ultralytics YOLO11,用于检测的网格单元系统可视为一种隐含的空间标记化形式。

理解标记是掌握人工智能模型如何解释和处理信息的基础。随着人工智能的发展,代币的概念和创建代币的方法仍将是处理各种数据类型和为从医学图像分析自动驾驶汽车等各种应用建立更复杂模型的核心。Ultralytics HUB等平台提供了管理数据集和训练模型的工具,通常涉及隐式或显式标记化的数据。

阅读全部