遇见 YOLO26: 下一代视觉 AI。
Ultralytics
返回 Ultralytics 词汇表

Rotary Position Embedding (RoPE)

探索旋转位置编码 (RoPE) 如何通过编码相对位置来增强 Transformer。了解其在 LLM 和 Ultralytics YOLO26 视觉任务中的作用。

旋转位置编码 (RoPE) 是一种在现代神经网络架构中广泛使用的极其有效的技术,用于将位置信息注入到 token 嵌入中。在诸如 transformers 等深度学习模型中,输入 token 是并行处理而非顺序处理的。由于这些模型缺乏内在的顺序感,它们需要外部机制来理解数据的序列。RoPE 通过使用旋转矩阵编码 token 的绝对位置,并将相对位置依赖性无缝集成到 attention mechanism 中解决了这个问题,使模型能够根据 token 之间的距离更好地理解它们之间的关系。

Link to this section旋转位置编码的工作原理#

与通过将固定的位置向量添加到 token 表示的传统方法不同,RoPE 在多维空间中对 token 特征应用几何旋转。此旋转的角度与 token 在序列中的位置成正比。当模型计算两个 token 之间的注意力分数时,这些旋转的数学特性确保了所得分数自然地取决于它们之间的相对距离。这种方法允许 advanced AI systems 在不消耗过多内存的情况下,在更大的 context windows 内保持稳健的结构感知能力。

为了理解它在实践中是如何运作的,开发者通常会在 frameworks like PyTorch 中使用张量操作来实现 RoPE。以下是一个简化的可运行代码片段,演示了核心旋转逻辑如何在模型训练或推理期间应用于输入特征:

import torch


def apply_rotary_emb(x, cos, sin):
    # A simplified PyTorch demonstration of applying rotary embeddings
    # Splits the feature dimension and rotates the halves
    half_dim = x.shape[-1] // 2
    x1, x2 = x[..., :half_dim], x[..., half_dim:]

    # Rotate the components to encode relative positional information
    rotated_x = torch.cat((-x2, x1), dim=-1)

    # Combine original features with cosine and sine transformations
    return (x * cos) + (rotated_x * sin)


# Example usage with dummy token features and sinusoidal matrices
dummy_features = torch.randn(2, 10, 64)  # (batch_size, sequence_length, features)
cos, sin = torch.randn(2, 10, 64), torch.randn(2, 10, 64)
embedded_features = apply_rotary_emb(dummy_features, cos, sin)

Link to this sectionRoPE 的实际应用#

旋转嵌入已成为序列建模的行业标准,特别是在高级 natural language processing (NLP) 任务和最先进的视觉系统中。

  1. 大语言模型 (LLMs): RoPE 是当今世界上一些最强大的文本生成系统背后的基础位置编码机制,其中包括 Meta's LLaMA architecture。通过利用 RoPE,这些 Large Language Models (LLMs) 可以在单个提示词中处理整本书或整个代码库,提供卓越的 sequence extrapolation capabilities,使其能够很好地泛化到训练长度之外的序列。

  2. 视觉 Transformer 和目标检测:computer vision 领域,从图像块导出的视觉 token 需要精确的空间结构。虽然像 Ultralytics YOLO26 这样的卷积模型通过局部感受野自然地捕获空间层次结构,但像 Vision Transformers 这样的自注意力架构通常会集成类似 RoPE 的 2D 扩展。这有助于基于 transformer 的 object detectioninstance segmentation 流水线更好地理解视觉元素的相对位置,从而提高复杂场景中的准确性。

Link to this section区分 RoPE 与绝对位置编码#

将 RoPE 与标准的 absolute position embeddings 区分开来非常重要。绝对嵌入为序列中的每个槽位分配一个固定的、独立的向量,这意味着模型必须独立学习位置 5 与位置 10 之间的关系。而 RoPE 则将距离的概念直接嵌入到 token 的转换中。这种根本差异使得 RoPE 在处理长文档和 generative AI 工作流时表现得更为优越,因为这些任务中的序列长度差异巨大。

在开发和扩展这些庞大的架构时,高效管理数据和基础设施至关重要。为了简化数据集标注、云端训练以及在所有边缘环境中的部署,开发者通常依赖 Ultralytics Platform 提供的综合工具,该平台承担了将前沿计算机视觉研究转化为生产应用的繁重工作。结合 fine-tuning 的最佳实践使用 RoPE,可以确保现代 AI 流水线既保持高度的准确性,又具备强大的计算稳健性。

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅