遇见 YOLO26: 下一代视觉 AI。
Ultralytics
返回 Ultralytics 词汇表

Medusa Heads

了解 Medusa heads 如何加速 LLM 解码。探索这种多头架构如何通过并行 Token 预测来减少 AI 推理延迟。

在现代机器学习中,特别是在大型语言模型的架构中,该术语指的是一种旨在加速文本生成的创新解码框架。灵感来源于神话中拥有多条蛇作为头发的生物,这些架构利用附着在单个冻结骨干模型上的多个解码头。这种结构允许网络同时预测多个后续 token,而不是严格依赖于逐步的自回归生成。通过并行起草多个未来可能性,系统可以大幅降低推理延迟,而无需单独、较小的起草模型。

Link to this section了解架构#

传统的语言生成依赖于自回归过程,即模型根据前文序列预测下一个单词。虽然准确,但这种顺序处理会在计算速度上产生瓶颈,这是斯坦福 NLP 组研究中记录的一个挑战。Medusa 框架通过将额外的神经网络头附加到模型的最后一个隐藏状态来绕过这一点。

这些额外的头中的每一个都被训练用于预测不同未来位置的 token。在生成过程中,这些头会创建概率 token 序列树。随后,树注意力机制会并发验证这些序列。如果预测与基础模型的预期相匹配,多个 token 将在单次前向传递中被接受。这种技术是投机解码的一种高效形式,其基础机制的详细信息可以在arXiv 上的现代学术论文中进行探索。

Link to this section人工智能的实际应用#

该架构的并行预测能力在需要快速、大容量实时推理的场景中尤其有价值。

  • 实时对话代理:OpenAI 的生成模型Anthropic 的 Claude 框架驱动的高级客户服务机器人依赖低延迟响应来保持自然的对话流程。通过一次预测多个 token,这些代理可以显著加快向用户传输文本的速度。
  • 代码自动补全工具: AI 辅助编程环境使用这些多头架构来即时建议整行或整块代码。由于代码具有高度可预测的语法结构,并行头可以准确地起草函数闭包或循环,从而提高开发者效率。

Link to this section区分相关架构术语#

虽然它们在概念上有相似之处,但必须将这个 NLP 专用术语与计算机视觉系统中的结构组件区分开来。

  • 检测头 在诸如最先进的Ultralytics YOLO26之类的视觉模型中,“头”指的是网络的最后几层,负责输出空间预测,例如目标检测的边界框和类概率。
  • Medusa Head: 相反,该术语专门适用于自然语言处理和视觉-语言模型,其目标是并行预测顺序 token 以绕过自回归瓶颈。

Link to this section实现多头结构#

无论是构建用于视觉的空间预测头,还是用于文本的并行 token 预测器,多头结构都使用像PyTorch这样的底层库共享相似的实现原则。以下片段展示了如何构建一个简单的多头模块,通过多个并行层处理共享特征表示。

import torch
import torch.nn as nn


class ParallelHeads(nn.Module):
    def __init__(self, hidden_dim, num_heads):
        super().__init__()
        # Shared backbone representation
        self.base = nn.Linear(128, hidden_dim)
        # Multiple parallel heads predicting concurrent states
        self.heads = nn.ModuleList([nn.Linear(hidden_dim, 50) for _ in range(num_heads)])

    def forward(self, x):
        features = torch.relu(self.base(x))
        # Return predictions from all heads simultaneously
        return [head(features) for head in self.heads]


model = ParallelHeads(hidden_dim=64, num_heads=3)
predictions = model(torch.randn(1, 128))

为了简化生产环境中复杂、多层模型的开发和部署,开发者通常会利用诸如Ultralytics Platform之类的全面系统。这使团队能够无缝管理模型部署选项,确保针对速度优化的架构(无论是通过投机解码还是高效视觉检测头)在现实世界中可靠地运行。有关优化机器学习工作流程的更多见解,你可以查看来自Google DeepMind的出版物或浏览ACM 数字图书馆中的论文集。

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅