了解作为 AI 模型构建基石的 tokens 如何驱动 NLP、计算机视觉以及情感分析和目标检测等任务。
在人工智能领域 在人工智能领域,标记 是机器学习模型处理信息的基本原子单位。在 神经网络可以分析一个句子、一个代码 前,必须通过数据预处理这一关键步骤,将原始数据分割成这些离散、可管理的片段。 数据预处理的关键步骤。虽然人类 人类将语言视为文字流,或将图像视为连续的场景,而算法则需要将这些输入分解成标准化的元素,以便执行计算。 分解成标准化的元素,以便高效地执行计算。
要了解现代深度学习系统如何 的功能,就必须区分数据单位和创建数据的过程。这种区分 通常是通过比较 "是什么 "和 "怎么做 "来加以澄清。
数据标记化后,生成的标记不会直接用作文本字符串或图像补丁。相反,它们被 映射到称为嵌入的数字向量中。这些 这些高维向量可以捕捉到标记之间的语义和关系,从而使诸如 PyTorch等框架对它们进行数学运算。
在 自然语言处理(NLP)、 词块是 大型语言模型 (LLM)的输入,如 GPT 系列。现代模型 通常使用子词标记化算法,如 字节对编码 (BPE)。这种方法 这种方法在效率和词汇量之间取得了平衡,它将常用词保留为单个标记,同时将罕见词分解为有意义的音节。 音节。
代币的概念通过像视觉转换器(ViT)这样的架构彻底改变了图像分析。 视觉Transformer (ViT)。这些模型 这些模型不是通过卷积处理像素,而是将图像划分为固定大小的斑块网格(如 16x16 像素)。每个斑块都被扁平化,并被视为 "视觉标记",从而可以使用强大的图像处理功能。 Transformer机制,如 自我关注等强大的 Transformer 机制,以了解图像中的全局上下文。 图像中的全局背景。
代币是当今人工智能领域一些最先进功能的基石。
下面的示例演示了 ultralytics 软件包在幕后利用代币。通过
提供一个文本类列表,该模型会对这些输入进行标记化处理,以动态识别图像中的特定对象。
动态识别。
from ultralytics import YOLO
# Load a YOLO-World model capable of understanding text tokens
model = YOLO("yolo11s-world.pt")
# Define custom classes (these are tokenized internally)
model.set_classes(["helmet", "vest"])
# Run prediction; the model matches visual features to the text tokens
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results
results[0].show()

