了解人工智能模型的构件--标记如何为 NLP、计算机视觉以及情感分析和物体检测等任务提供支持。
在人工智能中,标记是模型处理数据的基本离散单位。在人工智能模型分析文本或图像之前,必须将原始数据分解成这些易于管理的片段。对于语言模型来说,标记可以是一个单词、单词的一部分(子单词)或单个字符。对于计算机视觉(CV)模型来说,标记可以是图像中固定大小的一小块。这一分解数据的过程是数据预处理管道中至关重要的第一步,因为它将复杂的非结构化数据转换为神经网络可以理解的结构化格式。
必须区分 "标记 "和"标记化"。
简而言之,标记化就是操作,而标记就是操作的结果。
标记是人工智能模型感知和解释数据的基石。一旦数据被标记化,每个标记通常都会映射到称为嵌入的数字向量表示。这些嵌入可以捕捉语义和上下文,使使用PyTorch或TensorFlow等框架构建的模型能够学习复杂的模式。
词和子词标记:在自然语言处理(NLP)中,使用整个单词作为标记可能会导致词汇量庞大,并产生未知单词的问题。使用字节对编码(BPE)或WordPiece 等算法进行子词标记化是一种常见的解决方案。它将稀有词分解成更小、更有意义的部分。例如,单词 "tokenization "可能会变成两个标记:"token "和 "##ization"。这种方法被BERT和GPT-4 等模型采用,有助于模型处理复杂的词汇和语法结构。您可以在Hugging Face Tokenizers 等库中探索现代实现方法。
视觉标记:标记的概念已超越文本,延伸到计算机视觉领域。在视觉变换器(ViT)等模型中,图像被分割成网格状的斑块(如 16x16 像素)。每个补丁都会被扁平化,并被视为一个 "视觉标记"。这样,功能强大的变换器架构就能利用自我关注处理序列,执行图像分类和物体检测等任务。这种基于标记的方法也是同时理解图像和文本的多模态模型(如CLIP)的基础。
代币的使用是无数人工智能系统的基础,从简单的应用到复杂、先进的模型,不一而足。
机器翻译:谷歌翻译等服务在很大程度上依赖于标记。当你输入一个句子时,它首先会被分解成一系列文本标记。一个复杂的序列到序列模型会处理这些标记,理解它们的集体含义,并用目标语言生成新的标记序列。然后再将这些输出的标记组装成一个连贯的翻译句子。这一过程可实现数十种语言的实时翻译。
自动驾驶汽车:在自动驾驶汽车领域,模型必须实时解释复杂的视觉场景。像Ultralytics YOLO11这样的模型可以处理摄像头馈送,执行物体跟踪和实例分割等任务。虽然像 YOLO 这样基于 CNN 的经典模型并不像变换器那样明确使用 "标记",但为检测而设计的视觉变换器变体却可以。它们将视觉输入分解成标记(斑块),以高精度识别和定位行人、其他车辆和交通信号。这种对环境的标记化理解对于安全导航至关重要。使用Ultralytics HUB 等平台可以简化从数据收集到模型部署的整个工作流程。