术语表

令牌化

了解标记化在 NLP 和 ML 中的作用！了解如何将文本分解为标记，从而增强情感分析和文本生成等人工智能任务。

标记化是人工智能（AI）和机器学习（ML）中的一个基本预处理步骤，在自然语言处理（NLP）中尤为重要。它包括将文本序列或其他数据分解成更小的、可管理的单元，称为标记。这些标记是算法用来理解和处理信息的基本构件，可将句子或段落等原始输入转化为适合机器学习模型分析的格式。这一过程至关重要，因为计算机理解文本的方式与人类不同；它们需要将数据结构化为离散的片段。

令牌化的工作原理

标记化的核心思想是分割。对于文本数据，这通常意味着根据预定义的规则或学习模式将句子分割成单词、子单词甚至单个字符。例如，句子Ultralytics YOLO11 功能强大 "可能会被标记为单个单词： ["Ultralytics", "YOLO11", "is", "powerful"].所选的具体方法在很大程度上取决于任务和所使用的模型结构。

常见的技术包括根据空白和标点符号分割文本。不过，通常需要采用更先进的方法，尤其是在处理大量词汇或在训练过程中未见过的单词时。字节对编码（BPE）或WordPiece等技术可将单词分割成更小的子单词单元。这些技术经常用于BERT和GPT-4等大型语言模型（LLM）中，以有效管理词汇量并优雅地处理未知单词。标记化策略的选择会极大地影响模型的性能和计算效率。

令牌化与令牌

区分 "令牌化 "和"令牌"很重要。

标记化：指将数据分解成更小单位的过程。这是一个预处理步骤。
标记：指标记化处理的结果--模型处理的单个单元（单词、子单词、字符或图像片段）。

了解标记化是掌握人工智能模型如何解释和学习各种数据类型的基础。管理数据集和训练模型通常需要使用Ultralytics HUB 等平台，这些平台有助于简化数据预处理和模型训练工作流程，其中通常隐式或显式地涉及标记化数据。随着人工智能的发展，标记化方法也在不断调整，在为自动驾驶汽车和医学图像分析等领域的文本生成到复杂视觉理解等任务建立更复杂的模型方面发挥着关键作用。

令牌化

使用Ultralytics HUB 对YOLO 模型进行简单培训

灵活的企业许可解决方案为您的创新提供动力

利用Ultralytics YOLO

使用Ultralytics HUB 对YOLO 模型进行简单培训

令牌化的工作原理

相关性和实际应用

令牌化与令牌

阅读更多博客

加入Ultralytics 社区