了解标记如何成为人工智能中的基本信息单元。探索它们在自然语言处理、计算机视觉以及基于YOLO26的开放词汇检测中的作用。
在现代人工智能的精密架构中, 令牌代表着模型处理的基本原子信息单元。 算法在解读句子、分析软件脚本或识别图像中的物体之前, 必须将原始输入数据分解为这些离散的标准化元素。 这种分割是数据预处理的关键步骤,将非结构化输入转化为神经网络可高效计算的数值格式。人类感知语言时将其视为连续的思想流,感知图像时则视为无缝的视觉场景,而计算模型则需要这些细粒度的构建模块来执行模式识别和语义分析等操作。
要掌握机器学习的运作机制,必须区分数据单元与生成该数据的处理过程。这种区分有助于Ultralytics 设计数据管道和准备训练材料时避免混淆。
令牌的性质因所处理数据的模态而存在显著差异,尤其在文本与视觉领域之间。
在自然语言处理(NLP)领域, 令牌是大型语言模型(LLMs)的输入单元。 早期方法严格映射整个单词,但现代架构采用字节对编码(BPE)等亚词算法。该方法通过将罕见词拆分为有意义的音节来处理,在词汇量与语义覆盖率之间取得平衡。例如,单词"unhappiness"可能被分词为"un"、"happi"和"ness"。
随着视觉Transformer ViT)的出现,标记化概念已扩展至计算机视觉领域。不同于传统卷积网络通过滑动窗口处理像素,变换器将图像划分为固定尺寸的网格片段(例如16x16像素)。 每个图像块被展平处理为独立的视觉标记。这种方法使模型能够运用自注意力机制理解图像中相距较远部分之间的关联性,其原理类似于Google 最初将Transformer模型应用于文本处理的方式。
在无数应用场景中,代币充当了人类数据与机器智能之间的桥梁。
以下代码片段演示了如何 ultralytics 该包使用文本令牌进行引导
物体检测尽管最先进的技术
YOLO26 推荐用于高速、固定类别的推理,
YOLO架构独具特色地允许用户在运行时将类别定义为文本标记。
from ultralytics import YOLO
# Load a pre-trained YOLO-World model capable of understanding text tokens
model = YOLO("yolov8s-world.pt")
# Define specific classes; these text strings are tokenized internally
# The model will look specifically for these "tokens" in the visual data
model.set_classes(["bus", "backpack"])
# Run prediction on an image using the defined tokens
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results showing only the tokenized classes
results[0].show()
理解标记是驾驭生成式人工智能与高级分析领域的基石。无论是让聊天机器人流畅对话,还是协助视觉系统区分细微的物体类别,标记始终是机器智能的核心货币,被PyTorch等框架广泛采用。 PyTorch 和 TensorFlow所采用的核心智能货币。