探索分词在自然语言处理和机器学习中的强大功能! 了解如何将文本分解为 tokens,从而增强情感分析和文本生成等人工智能任务。
分词是将原始数据流(如文本、图像或音频)分解为更小、更易管理的单元(称为词元)的算法过程。这种转换在数据预处理管道中起着关键桥梁作用,将非结构化输入转换为人工智能(AI)系统能够解读的数值格式。 计算机无法天然理解人类语言或视觉场景,必须通过数值表示才能执行计算。工程师将数据分割为令牌后,神经网络便能将这些单元映射为嵌入向量——这种向量表示形式能捕捉语义含义。若缺少这一基础步骤,机器学习模型将无法识别模式、学习语境,更无法处理现代训练所需的海量数据集。
尽管在深度学习讨论中这两个术语常被并列提及,但区分方法与结果有助于理解工作流程。
数据模态的不同会显著影响分词策略的选择,进而影响基础模型对世界的认知方式。
在自然语言处理(NLP)领域,目标是在segment 的同时保留语义。早期方法依赖于简单的技术,如通过空格分隔单词或移除停用词。然而,现代大型语言模型(LLMs)采用了更复杂的亚词算法,例如字节对编码(BPE)或词片(WordPiece)。这些算法通过迭代合并最频繁的字符对,使模型能够通过将罕见词分解为熟悉的子组件(如 字节对编码(BPE)或WordPiece。这些算法 通过迭代合并高频字符对,使模型能将罕见词汇分解为 常见子组件(如"smartphones"分解为"smart" + "phones")。该方法 在词汇量规模与复杂语言表征能力之间实现了平衡。
传统上,计算机视觉(CV)模型如卷积神经网络(CNN)采用滑动窗口处理像素。视觉Transformer ViT)的出现通过将图像进行分词化处理,改变了这一范式。 图像被切分为固定尺寸的片段(例如16x16像素), 随后被展平并进行线性投影。这些"视觉标记"使模型能够利用 自注意力机制学习图像全局关系,类似于 Transformer 处理句子。
令牌化是当今生产环境中众多人工智能应用背后默默运转的引擎。
下面的示例演示了 ultralytics 该软件包在YOLO工作流中隐式使用文本分词功能。通过定义自定义类别,模型可对这些字符串进行分词处理,从而动态搜索特定对象。
from ultralytics import YOLO
# Load a pre-trained YOLO-World model capable of text-based detection
model = YOLO("yolov8s-world.pt")
# Define custom classes; these are tokenized internally to guide the model
# The model will look for visual features matching these text tokens
model.set_classes(["backpack", "bus"])
# Run prediction on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results (only detects the tokenized classes defined above)
results[0].show()
分词策略的选择直接影响 准确率与计算效率。低效的 分词可能导致自然语言处理中的"词汇表外"错误,或在图像分析中 丢失精细细节。诸如 PyTorch 和 TensorFlow 等框架提供了灵活工具来优化这一环节。随着架构演进——例如前沿的YOLO26模型——高效的数据处理确保模型能在从高性能云端GPU到边缘设备的各类硬件上实现实时推理。管理这些复杂数据流的工作团队通常Ultralytics 来优化数据集标注、模型训练及部署流程。