深圳Yolo 视觉
深圳
立即加入
词汇表

Ring 关注

了解 Ring Attention 如何将 Transformer 模型扩展至无限序列长度。探索该技术如何增强大型语言模型(LLMs)和视觉 Transformer,以应对海量数据任务。

RingAttention 是一种先进的 机器学习(ML)技术,旨在 扩展 Transformer 架构的上下文窗口,使其能够处理 几乎无限长的序列。通过将复杂的注意力计算分布在采用环形拓扑连接的GPU集群上, 该技术有效地将通信与计算交织在一起。这一架构上的突破使 大型语言模型(LLMs) 视觉Transformer(ViT)能够处理海量 输入——例如整本书或数小时的连续视频——这些数据量远超任何单个硬件 设备的内存容量。

克服上下文窗口的障碍

在标准的自注意力机制中,内存 消耗量与输入序列的长度呈二次方关系。这给 试图分析 长文本数据的深度学习(DL)模型带来了严重的瓶颈。若想进一步了解人工智能界是如何应对这一挑战的,您可以探索 伯克利人工智能研究院(Berkeley AI Research)在大型上下文模型方面的研究成果

Ring Attention 通过将查询、键和值拆分为较小的数据块来解决这一二次计算瓶颈。分布式GPU 都会计算一个数据块,然后将键和值传递给环形网络中的相邻设备。这种循环传输会持续进行,直到完整的注意力机制计算完成。借助 PyTorch 通信包等工具, 开发者能够构建这些复杂的多设备训练管道。

“铃声提醒”与“闪光提醒”

虽然这两种技术都能优化内存使用,但它们作用于不同的层面。 Flash Attention是一种硬件感知型算法, 旨在最大限度地减少单个 GPU 内部 SRAM 中耗时的内存读写操作。相反,Ring Attention 是一种 分布式算法,专注于在多个GPU 上扩展计算能力。 在最先进的 生成式人工智能工作流中,这两种技术常被 结合使用,以同时实现局部硬件效率和大规模多设备可扩展性,详情参见 arXiv 上关于 Ring Attention 的原始研究论文

实际应用

能够同时处理数百万个令牌,这为现代人工智能释放了强大的潜力:

  1. 全面的文档和代码库分析:Ring Attention 使模型能够通过单个提示词摄取数百万 行代码或复杂的法律文档库。这极大地提升了依赖 检索增强生成(RAG)的系统,使其能够在不截断关键信息的情况下合成上下文。这一概念是Google Gemini 架构等 大规模上下文模型的基础。
  2. 扩展视频理解: 计算机视觉(CV)领域,处理 高分辨率视频序列通常需要进行大幅降采样。环形注意力机制使模型能够分析 未经压缩、长达一小时的视频流。这提升了 安防和自动驾驶系统中的动作识别与连续 目标跟踪能力, 并在长时间内保持对时间序列的感知。

视觉序列处理

虽然大规模分布式注意力模型能够处理无限上下文,但以边缘计算为先的实际应用需要高度 优化的架构。对于 实时推理和视觉序列 处理Ultralytics 提供了业界领先的 性能,同时避免了纯注意力型变压器带来的巨大计算开销。

from ultralytics import YOLO

# Load the recommended YOLO26 model for high-speed object tracking
model = YOLO("yolo26n.pt")

# Perform robust multi-object tracking on a long video sequence
results = model.track(source="long_surveillance_feed.mp4", stream=True)

# Iterate through the stream to process temporal tracking data
for frame_result in results:
    print(f"Tracked {len(frame_result.boxes)} objects in current frame.")

在构建和扩展这些复杂的物体检测 图像分割解决方案时,硬件 编排的管理至关重要。Ultralytics 彻底简化了这一 流程,提供了用于无缝 云端训练、自动化数据集 标注以及一键式模型部署至 多种硬件环境的工具。利用这些平台,可确保前沿的扩展技术 从研究阶段顺利过渡到可扩展且适用于生产环境的 AI 管道。

让我们携手共创人工智能的未来!

开启您的机器学习未来之旅