深圳Yolo 视觉
深圳
立即加入
词汇表

Token(令牌)

了解作为 AI 模型构建基石的 tokens 如何驱动 NLP、计算机视觉以及情感分析和目标检测等任务。

在人工智能领域 在人工智能领域,标记 是机器学习模型处理信息的基本原子单位。在 神经网络可以分析一个句子、一个代码 前,必须通过数据预处理这一关键步骤,将原始数据分割成这些离散、可管理的片段。 数据预处理的关键步骤。虽然人类 人类将语言视为文字流,或将图像视为连续的场景,而算法则需要将这些输入分解成标准化的元素,以便执行计算。 分解成标准化的元素,以便高效地执行计算。

Token vs. Token化

要了解现代深度学习系统如何 的功能,就必须区分数据单位和创建数据的过程。这种区分 通常是通过比较 "是什么 "和 "怎么做 "来加以澄清。

  • 令牌:这是输出--输入模型的实际数据块。在文本处理中,一个标记 可能代表整个单词、单词的一部分(子单词)或单个字符。在 计算机视觉中,它通常代表 特定的像素点。
  • 令牌化这是 将原始数据分割成标记的算法过程。例如,像 spaCyNLTK等库中的专门工具会处理一个标记结束和下一个标记开始的规则。 标记结束和下一个标记开始的规则。

代币在人工智能架构中的作用

数据标记化后,生成的标记不会直接用作文本字符串或图像补丁。相反,它们被 映射到称为嵌入的数字向量中。这些 这些高维向量可以捕捉到标记之间的语义和关系,从而使诸如 PyTorch等框架对它们进行数学运算。

NLP 中的文本标记

自然语言处理(NLP)、 词块是 大型语言模型 (LLM)的输入,如 GPT 系列。现代模型 通常使用子词标记化算法,如 字节对编码 (BPE)。这种方法 这种方法在效率和词汇量之间取得了平衡,它将常用词保留为单个标记,同时将罕见词分解为有意义的音节。 音节。

计算机视觉中的视觉标记

代币的概念通过像视觉转换器(ViT)这样的架构彻底改变了图像分析。 视觉Transformer (ViT)。这些模型 这些模型不是通过卷积处理像素,而是将图像划分为固定大小的斑块网格(如 16x16 像素)。每个斑块都被扁平化,并被视为 "视觉标记",从而可以使用强大的图像处理功能。 Transformer机制,如 自我关注等强大的 Transformer 机制,以了解图像中的全局上下文。 图像中的全局背景。

实际应用

代币是当今人工智能领域一些最先进功能的基石。

  1. 开放词汇对象检测YOLO 多模式方法,其中文本和图像 标记相互作用。用户可以将自定义类别(如 "蓝色背包")定义为文本提示。模型 将这些提示标记化,并与图像中的视觉标记相匹配,从而执行 零镜头学习检测,无需 重新训练。
  2. 生成式人工智能和聊天机器人:与聊天机器人交互时 聊天机器人时,系统会使用 文本生成来预测序列中最有可能出现的下一个 标记。这种逐个标记的预测可以创建连贯且与上下文相关的回复,推动从客户支持到代码完成的应用。 回复,推动从客户支持到代码完成的应用。

示例:使用文本标记进行检测

下面的示例演示了 ultralytics 软件包在幕后利用代币。通过 提供一个文本类列表,该模型会对这些输入进行标记化处理,以动态识别图像中的特定对象。 动态识别。

from ultralytics import YOLO

# Load a YOLO-World model capable of understanding text tokens
model = YOLO("yolo11s-world.pt")

# Define custom classes (these are tokenized internally)
model.set_classes(["helmet", "vest"])

# Run prediction; the model matches visual features to the text tokens
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results
results[0].show()

了解代币对于掌握 基础模型如何弥合 非结构化人类数据与计算理解之间的桥梁。 图像分类还是复杂的语言 任务。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入