深圳Yolo 视觉
深圳
立即加入
词汇表

分词 (Tokenization)

探索分词在自然语言处理和机器学习中的强大功能! 了解如何将文本分解为 tokens,从而增强情感分析和文本生成等人工智能任务。

标记化是将原始数据流(如文本、代码或图像)转换为较小的离散单元(称为标记)的基本过程、 离散单元,即标记。这种转换是 数据预处理管道中的关键桥梁,将 将非结构化的人类信息转化为数字格式,以便于 人工智能(AI)系统可以 解释。通过将复杂的数据分解成易于管理的片段,标记化使 机器学习模型识别模式、 学习语义关系,并执行复杂的推理任务。如果没有这个初始步骤 驱动现代技术的神经网络 就无法处理训练所需的庞大数据集。

令牌化与令牌

虽然这两个词经常被放在一起使用,但重要的是要区分方法和结果。

  • 标记化是应用于数据的操作或算法。它涉及特定的规则 分割字符串或分割图像。spaCyNLTK等工具可为文本处理提供便利。
  • 令牌是流程产生的输出单位。有关这些 单位的详细信息,请参阅 "令牌"术语表页面。

令牌化如何在人工智能中发挥作用

标记化的应用因处理的数据类型不同而有很大差异,不过 尽管生成嵌入式--数据的矢量 数据的向量表示,但最终目标仍然相同。

NLP 中的文本标记化

自然语言处理(NLP)、 这一过程包括将句子分割成单词、子单词或字符。早期的方法只是通过 空白分割文本,但现代 大语言模型 (LLM)则利用 字节对编码 (BPE)等先进算法来有效处理稀有词。 高效地处理稀有词。这使得像 这样,GPT-4等模型就可以处理复杂的词汇,而不需要一个 无限词典。

计算机视觉中的视觉标记化

传统上,计算机视觉(CV)是在像素阵列上运行的。 像素阵列。然而,随着 视觉Transformer (ViT)的兴起引入了 然而,视觉变换器(ViT)的兴起引入了将图像分割成固定大小补丁(如 16x16 像素)的概念。这些斑块被扁平化,并被视为 视觉标记,使模型能够利用 自我关注来权衡不同图像区域的重要性。 图像区域的重要性,类似于处理句子的方式。

实际应用

令牌化不仅仅是一个理论概念,它还为许多日常使用的人工智能应用提供了动力。

  1. 多模式检测:先进的模型,如 YOLO等先进模型弥补了文本与视觉之间的差距。通过 通过标记用户输入(如 "红色汽车")并将其与视觉特征进行匹配,这些模型可执行开 进行开放词汇对象检测,而无需 对新类别进行显式再训练。
  2. 语言翻译:谷歌翻译等服务 Google 翻译等服务依靠将输入文本分解成标记,然后通过 通过 序列到序列模型进行翻译,然后 将输出标记重新组合为目标语言。
  3. 生成艺术:能够 文本到图像的生成模型,如 稳定扩散模型,将文本提示标记化,以指导 去噪过程,创造出与输入词块语义相符的视觉效果。

实例:YOLO代币化

下面的示例演示了如何 ultralytics 中利用隐式标记化 YOLO模式 工作流程。工作流程 .set_classes() 方法对文本列表进行标记,以动态引导模型的检测重点。

from ultralytics import YOLO

# Load a pre-trained YOLO-World model
model = YOLO("yolov8s-world.pt")

# Define custom classes; the model tokenizes these strings to search for specific objects
model.set_classes(["backpack", "person"])

# Run prediction on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results (only detects the tokenized classes defined above)
results[0].show()

模型性能的重要性

标记化策略的选择直接影响 准确性和计算效率。低效的 会导致 NLP 中的 "词汇外 "错误或图像分割中细粒度细节的丢失。 图像分割的细节。像 PyTorchTensorFlow等框架提供了灵活的 工具来优化这一步骤。随着架构的发展,例如最新的 YOLO11-高效的数据处理确保了模型能够在不同的硬件上运行实时推理。 实时推理。 从功能强大的云 GPU 到边缘设备。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入