了解标记化在 NLP 和 ML 中的作用!了解如何将文本分解为标记,从而增强情感分析和文本生成等人工智能任务。
标记化是人工智能(AI)和机器学习(ML)中的一个基本预处理步骤,在自然语言处理(NLP)中尤为重要。它包括将文本序列或其他数据分解成更小的、可管理的单元,称为标记。这些标记是算法用来理解和处理信息的基本构件,可将句子或段落等原始输入转化为适合机器学习模型分析的格式。这一过程至关重要,因为计算机理解文本的方式与人类不同;它们需要将数据结构化为离散的片段。
标记化的核心思想是分割。对于文本数据,这通常意味着根据预定义的规则或学习模式将句子分割成单词、子单词甚至单个字符。例如,句子Ultralytics YOLO11 功能强大 "可能会被标记为单个单词: ["Ultralytics", "YOLO11", "is", "powerful"]
.所选的具体方法在很大程度上取决于任务和所使用的模型结构。
常见的技术包括根据空白和标点符号分割文本。不过,通常需要采用更先进的方法,尤其是在处理大量词汇或在训练过程中未见过的单词时。字节对编码(BPE)或WordPiece等技术可将单词分割成更小的子单词单元。这些技术经常用于BERT和GPT-4等大型语言模型(LLM)中,以有效管理词汇量并优雅地处理未知单词。标记化策略的选择会极大地影响模型的性能和计算效率。
标记化至关重要,因为大多数 ML 模型,尤其是深度学习架构,都需要数字输入,而不是原始文本。通过将文本转换为离散的标记,我们可以将这些标记映射为数字表示,如嵌入。这些数字矢量可以捕捉语义和关系,从而让使用诸如 PyTorch或 TensorFlow等框架构建的模型从数据中学习模式。这一基础步骤是众多人工智能应用的基础:
自然语言处理(NLP):标记化几乎是所有 NLP 任务的核心。
计算机视觉(CV):虽然传统上与 NLP 相关,但这一概念已扩展到计算机视觉 (CV)。