探索标记化如何将原始文本和图像转换为AI就绪数据。了解Ultralytics YOLO26等模型使用的自然语言处理和计算机视觉方法。
分词(Tokenization)是将原始数据流(如文本、图像或音频)分解成更小、更易于管理的单元(称为 token)的算法过程。这种转换在 数据预处理 管道中扮演着关键桥梁的角色,将非结构化输入转换为 人工智能 (AI) 系统可以解释的数值格式。计算机无法固有地理解人类语言或视觉场景;它们需要数值表示来进行计算。通过将数据分割成 token,工程师使 神经网络 能够将这些单元映射到 嵌入 (embeddings)——捕获语义的向量表示。如果没有这一基本步骤,机器学习 模型将无法识别模式、学习上下文或处理现代训练所需的大量 数据集。
虽然这些术语在 深度学习 讨论中经常一起出现,但区分方法和结果有助于理解其工作流程。
分词策略因数据模态的不同而显著变化,影响着 基础模型 对世界的感知方式。
在 自然语言处理 (NLP) 中,目标是在保留语义的同时对文本进行分段。早期方法依赖于简单的技术,例如通过空格分隔单词或移除 停用词。然而,现代 大型语言模型 (LLMs) 利用更复杂的子词算法,例如 字节对编码 (BPE) 或 WordPiece。这些算法迭代地合并最常见的字符对,使模型能够通过将稀有词分解为熟悉的子组件来处理它们(例如,“smartphones”变为“smart”+“phones”)。这种方法平衡了词汇量和表示复杂语言的能力。
传统上,像 CNN 这样的 计算机视觉 (CV) 模型使用滑动窗口处理像素。Vision Transformer (ViT) 的引入通过将分词应用于图像改变了这一范式。图像被切分成固定大小的块(例如 16x16 像素),然后被展平并进行线性投影。这些“视觉 token”允许模型利用 自注意力 机制学习图像中的全局关系,类似于 Transformer 处理句子的方式。
分词是当今生产环境中许多 AI 应用背后的无声引擎。
下面的示例演示了 ultralytics 此软件包在 YOLO-World 工作流中隐式利用文本标记化。通过定义自定义类别,模型将这些字符串进行标记化,以动态搜索特定对象。
from ultralytics import YOLO
# Load a pre-trained YOLO-World model capable of text-based detection
model = YOLO("yolov8s-world.pt")
# Define custom classes; these are tokenized internally to guide the model
# The model will look for visual features matching these text tokens
model.set_classes(["backpack", "bus"])
# Run prediction on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results (only detects the tokenized classes defined above)
results[0].show()
标记化策略的选择直接影响准确性和计算效率。低效的标记化可能导致自然语言处理中的“词汇表外”错误,或图像分析中丢失细粒度细节。像PyTorch和TensorFlow这样的框架提供了灵活的工具来优化这一步骤。随着架构的演进——例如最先进的YOLO26——高效的数据处理确保模型能够在从强大的云 GPU 到边缘设备等多样化硬件上运行实时推理。管理这些复杂数据工作流的团队通常依赖Ultralytics Platform来简化数据集标注、模型训练和部署。

开启您的机器学习未来之旅