敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

GELU(高斯误差线性单元)

了解 GELU 激活函数如何增强 GPT-4 等 Transformer 模型,从而提高梯度流动性、稳定性和效率。

GELU(高斯误差线性单元)是一种高性能的 激活函数,已成为最先进的 神经网络 架构(尤其是 Transformer 模型)中的标准。它以其平滑、非单调曲线而闻名,这有助于模型比旧函数更有效地学习复杂的模式。在论文《高斯误差线性单元(GELUs)》中引入,它结合了来自其他函数(如 dropoutReLU)的属性,以提高训练稳定性和模型性能。

GELU 如何运作

与ReLU直接截断所有负值不同,GELU根据输入的大小对其进行加权。它通过将输入乘以标准高斯分布的累积分布函数(CDF),以概率方式确定是否激活神经元。这意味着输入越负,越有可能被“丢弃”(设置为零),但过渡是平滑的,而不是突然的。这种随机正则化属性有助于防止诸如梯度消失问题之类的问题,并允许更丰富的数据表示,这对于现代深度学习模型至关重要。

GELU 与其他激活函数对比

与其他流行的激活函数相比,GELU 具有多个优势,因此被广泛采用。

  • GELU vs. ReLU 主要区别在于GELU的平滑性。虽然ReLU在计算上很简单,但它在零处的尖角有时会导致“死亡ReLU”问题,即神经元永久性地变得不活跃。GELU的平滑曲线避免了这个问题,有助于更稳定的梯度下降,并且通常会带来更好的最终准确率
  • GELU vs. Leaky ReLU Leaky ReLU试图通过允许负输入有一个小的负斜率来解决ReLU的“死亡ReLU”问题。然而,GELU的非线性、弯曲的性质提供了一个更动态的激活范围,已被证明在许多深度学习任务中优于Leaky ReLU。
  • GELU vs. SiLU (Swish) Sigmoid线性单元(SiLU),也称为Swish,与GELU非常相似。两者都是平滑的、非单调的函数,都表现出优异的性能。它们之间的选择通常取决于针对特定架构和数据集的经验测试,尽管一些研究表明,在某些计算机视觉模型中,SiLU可能效率更高。像Ultralytics YOLO这样的模型通常使用SiLU,因为它在性能和效率之间取得了平衡。

人工智能与深度学习应用

GELU 是迄今为止开发的最强大的 AI 模型中的关键组件。

实施与使用

GELU 在所有主要的 深度学习框架 中都可轻松获得,因此很容易集成到自定义模型中。

开发者可以使用GELU和Ultralytics HUB等平台来构建、训练和部署模型,从而简化从数据增强最终模型部署的整个MLOps生命周期。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板