了解人工智能模型的构件--标记如何为 NLP、计算机视觉以及情感分析和物体检测等任务提供支持。
在人工智能(AI)和机器学习(ML)领域,尤其是自然语言处理(NLP)领域,以及越来越多的计算机视觉领域,"标记 "代表了模型处理数据的最小单位。将标记视为人工智能模型用来理解和分析信息(无论是文本、图像还是其他形式的数据)的基本构件。它们对于将原始输入转换为算法可以解释和学习的格式至关重要,是许多复杂的人工智能任务的基础。
代币是一个称为 令牌化.例如,在 NLP 中,可以将Ultralytics YOLO 快速而准确 "这样的句子标记为单个单词: ["Ultralytics", "YOLO", "is", "fast", "and", "accurate"]
.根据具体的标记化策略,标记也可以是子词单位(如 "Ultra"、"lytics"),甚至是单个字符。这种细分可将连续文本或复杂数据转化为易于管理的片段。
令牌之所以至关重要,是因为大多数深度学习模型,包括许多现代人工智能系统中使用的强大架构(如Transformers),都无法直接处理原始的非结构化数据。它们需要结构化的输入,通常是数字格式。标记化提供了这座桥梁。一旦数据被标记化,每个标记通常会被映射为数字表示,如词汇表中的 ID,或者更常见的称为嵌入的密集向量表示。这些嵌入式表示捕捉标记之间的语义关系,模型在训练过程中学习这些语义关系。
将数据分解为代币有不同的方法:
将标记与相关术语区分开来非常重要:
代币是各种人工智能领域的基础。下面是两个具体的例子:
机器翻译:在Google 翻译等服务中,首先对一种语言的输入句子进行标记化。这些标记由序列到序列模型(通常是转换器)处理,然后生成代表目标语言翻译句子的标记。标记化的选择对翻译的准确性和流畅性有很大影响。像GPT-4和BERT这样的 LLM 在翻译、文本生成和情感分析等任务中严重依赖标记处理。提示调整和提示链等技术涉及操作输入标记序列以指导模型行为。
使用变形器的计算机视觉:传统上,标记与 NLP 相关联,但现在标记已成为视觉变换器(ViTs)等高级计算机视觉模型的核心。在视觉变换器中,图像被分割成固定大小、不重叠的斑块(如 16x16 像素)。每个补丁都被视为一个 "视觉标记"。这些标记被线性嵌入并输入变换器架构,该架构使用注意力机制来分析图像不同部分之间的关系。这种方法可用于图像分类、物体检测和图像分割等任务。像Segment Anything Model(SAM)这样的模型就采用了这种基于标记的方法。即使在卷积模型中,如 Ultralytics YOLOv8或更新的 Ultralytics YOLO11,用于检测的网格单元系统可视为一种隐含的空间标记化形式。
理解标记是掌握人工智能模型如何解释和处理信息的基础。随着人工智能的发展,代币的概念和创建代币的方法仍将是处理各种数据类型和为从医学图像分析到自动驾驶汽车等各种应用建立更复杂模型的核心。Ultralytics HUB等平台提供了管理数据集和训练模型的工具,通常涉及隐式或显式标记化的数据。