探索分词在自然语言处理和机器学习中的强大功能! 了解如何将文本分解为 tokens,从而增强情感分析和文本生成等人工智能任务。
标记化是将原始数据流(如文本、代码或图像)转换为较小的离散单元(称为标记)的基本过程、 离散单元,即标记。这种转换是 数据预处理管道中的关键桥梁,将 将非结构化的人类信息转化为数字格式,以便于 人工智能(AI)系统可以 解释。通过将复杂的数据分解成易于管理的片段,标记化使 机器学习模型识别模式、 学习语义关系,并执行复杂的推理任务。如果没有这个初始步骤 驱动现代技术的神经网络 就无法处理训练所需的庞大数据集。
虽然这两个词经常被放在一起使用,但重要的是要区分方法和结果。
标记化的应用因处理的数据类型不同而有很大差异,不过 尽管生成嵌入式--数据的矢量 数据的向量表示,但最终目标仍然相同。
在 自然语言处理(NLP)、 这一过程包括将句子分割成单词、子单词或字符。早期的方法只是通过 空白分割文本,但现代 大语言模型 (LLM)则利用 字节对编码 (BPE)等先进算法来有效处理稀有词。 高效地处理稀有词。这使得像 这样,GPT-4等模型就可以处理复杂的词汇,而不需要一个 无限词典。
传统上,计算机视觉(CV)是在像素阵列上运行的。 像素阵列。然而,随着 视觉Transformer (ViT)的兴起引入了 然而,视觉变换器(ViT)的兴起引入了将图像分割成固定大小补丁(如 16x16 像素)的概念。这些斑块被扁平化,并被视为 视觉标记,使模型能够利用 自我关注来权衡不同图像区域的重要性。 图像区域的重要性,类似于处理句子的方式。
令牌化不仅仅是一个理论概念,它还为许多日常使用的人工智能应用提供了动力。
下面的示例演示了如何 ultralytics 中利用隐式标记化
YOLO模式 工作流程。工作流程
.set_classes() 方法对文本列表进行标记,以动态引导模型的检测重点。
from ultralytics import YOLO
# Load a pre-trained YOLO-World model
model = YOLO("yolov8s-world.pt")
# Define custom classes; the model tokenizes these strings to search for specific objects
model.set_classes(["backpack", "person"])
# Run prediction on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results (only detects the tokenized classes defined above)
results[0].show()
标记化策略的选择直接影响 准确性和计算效率。低效的 会导致 NLP 中的 "词汇外 "错误或图像分割中细粒度细节的丢失。 图像分割的细节。像 PyTorch和 TensorFlow等框架提供了灵活的 工具来优化这一步骤。随着架构的发展,例如最新的 YOLO11-高效的数据处理确保了模型能够在不同的硬件上运行实时推理。 实时推理。 从功能强大的云 GPU 到边缘设备。

