词汇表

GELU（高斯误差线性单元）

了解 GELU 激活函数如何增强 GPT-4 等 Transformer 模型，从而提高梯度流动性、稳定性和效率。

GELU（高斯误差线性单元）是一种高性能的激活函数，已成为最先进的神经网络架构（尤其是 Transformer 模型）中的标准。它以其平滑、非单调曲线而闻名，这有助于模型比旧函数更有效地学习复杂的模式。在论文《高斯误差线性单元（GELUs）》中引入，它结合了来自其他函数（如 dropout 和 ReLU）的属性，以提高训练稳定性和模型性能。

GELU 如何运作

与ReLU直接截断所有负值不同，GELU根据输入的大小对其进行加权。它通过将输入乘以标准高斯分布的累积分布函数（CDF），以概率方式确定是否激活神经元。这意味着输入越负，越有可能被“丢弃”（设置为零），但过渡是平滑的，而不是突然的。这种随机正则化属性有助于防止诸如梯度消失问题之类的问题，并允许更丰富的数据表示，这对于现代深度学习模型至关重要。

GELU 与其他激活函数对比

与其他流行的激活函数相比，GELU 具有多个优势，因此被广泛采用。

GELU vs. ReLU： 主要区别在于GELU的平滑性。虽然ReLU在计算上很简单，但它在零处的尖角有时会导致“死亡ReLU”问题，即神经元永久性地变得不活跃。GELU的平滑曲线避免了这个问题，有助于更稳定的梯度下降，并且通常会带来更好的最终准确率。
GELU vs. Leaky ReLU： Leaky ReLU试图通过允许负输入有一个小的负斜率来解决ReLU的“死亡ReLU”问题。然而，GELU的非线性、弯曲的性质提供了一个更动态的激活范围，已被证明在许多深度学习任务中优于Leaky ReLU。
GELU vs. SiLU (Swish)： Sigmoid线性单元（SiLU），也称为Swish，与GELU非常相似。两者都是平滑的、非单调的函数，都表现出优异的性能。它们之间的选择通常取决于针对特定架构和数据集的经验测试，尽管一些研究表明，在某些计算机视觉模型中，SiLU可能效率更高。像Ultralytics YOLO这样的模型通常使用SiLU，因为它在性能和效率之间取得了平衡。

人工智能与深度学习应用

GELU 是迄今为止开发的最强大的 AI 模型中的关键组件。

自然语言处理 (NLP): GELU 是 Transformer 架构的前馈网络中的标准激活函数。这包括像 BERT 和 GPT 系列这样的开创性模型，它们是几乎所有现代大型语言模型 (LLM)的基础。它处理复杂语言模式的能力使其非常适合机器翻译和文本摘要等任务。您可以在 Hugging Face 等组织提供的资源中阅读有关这些模型的更多信息。
计算机视觉（CV）: 继在 NLP 领域取得成功之后，GELU 被应用于 Vision Transformer (ViT) 模型。这些模型将 Transformer 架构应用于图像块，以执行图像分类和目标检测等任务。 ViT 的性能证明了 GELU 在处理视觉信息方面的有效性，从而挑战了传统卷积神经网络（CNN）的统治地位。

实施与使用

GELU 在所有主要的深度学习框架中都可轻松获得，因此很容易集成到自定义模型中。

PyTorch: 实施为 torch.nn.GELU，其中包含详细信息官方 PyTorch GELU 文档.
TensorFlow： 可用作 tf.keras.activations.gelu，其中有详细的文档说明 TensorFlow API 文档.

开发者可以使用GELU和Ultralytics HUB等平台来构建、训练和部署模型，从而简化从数据增强到最终模型部署的整个MLOps生命周期。

GELU（高斯误差线性单元）

训练 Ultralytics YOLO 模型，以简化各行业的流程

灵活的企业许可解决方案，助力您的创新

使用 Ultralytics YOLO 在几秒钟内训练 AI 模型

GELU 如何运作

GELU 与其他激活函数对比

人工智能与深度学习应用

实施与使用

阅读更多此类别的内容

从比特到量子比特：量子优化如何重塑人工智能

如何训练人工智能模型的初学者快速指南

来自迪拜的真知灼见：2025 年 GDG 中东和北非峰会的主要收获

加入 Ultralytics 社区