深圳Yolo 视觉
深圳
立即加入
词汇表

GELU(高斯误差线性单元)

了解 GELU 激活函数如何增强 GPT-4 等transformer 模型,提高梯度流、稳定性和效率。

高斯误差线性单元 (GELU) 是一种广泛采用的 激活函数,已成为现代 现代 神经网络(NN)架构的基石,尤其是涉及变压器的架构。 的基石。与传统 不同,GELU 提供了更平滑的非单调过渡。这种独特的 特性使其能够根据输入量的大小进行权衡,从而有效地弥合了确定性非线性和随机正则性之间的差距。 非线性和随机正则化技术之间的鸿沟。它广泛应用于主要模型,如 GPT 系列BERT 等主要模型中的广泛应用,凸显了它在帮助系统学习大量数据集中的复杂模式方面的能力。

GELU 如何运作

从根本上说,GELU 是信息流通过深度学习(DL)模型的看门人。 深度学习(DL)模型的信息流把关。虽然旧功能 像 整流线性单元 (ReLU) 将负值设为零,而 GELU 则采用了一种更为细致的方法。它将输入值乘以 的 标准高斯分布累积分布函数(CDF) 乘以标准高斯分布的累积分布函数(CDF)。

这一过程意味着,随着输入量的减少,激活概率性地减少了信息量,但它是以 但它是以平滑的曲线而非尖锐的角度进行的。这种平滑性改善了反向传播过程中的信息流 反向传播过程中的信息流,有助于缓解 梯度消失问题 的梯度消失问题。通过结合高斯分布的特性,GELU 引入了一种 曲率,与线性模型相比,它能更好地捕捉错综复杂的数据关系。

GELU 与其他激活函数对比

要了解 GELU 的适用范围,需要将它与人工智能术语表中的其他常见激活函数区分开来。 人工智能术语表

  • GELU 对 ReLUReLU 计算效率高,并能通过将负输入清零来实现稀疏性。但是,它在零点处的尖锐 角 "可能会阻碍训练。而 GELU 的平滑曲率可以避免这种情况,在复杂任务中往往能获得更高的准确率。 复杂任务的准确性
  • GELU 与 Leaky ReLU Leaky ReLU试图通过允许较小的恒定负斜率来修复死亡神经元。 小而恒定的负斜率来修复死亡神经元。相比之下,GELU 是非线性和非单调的,这意味着它的斜率会根据输入量的变化而变化。 这提供了更丰富的表征能力。
  • GELU 与 SiLU(swish) Sigmoid Linear Unit(SiLU)在结构上与GELU非常相似,也具有平滑、非单调的特性。 在结构上与 GELU 非常相似,也具有平滑、非单调的特性。GELU 在自然 语言处理(NLP)中占主导地位,而 SiLU 通常在计算机视觉架构中更受青睐,例如 Ultralytics YOLO11物体检测模型中,SiLU 卷积层的效率提高。

实际应用

GELU 与人工智能(AI)领域的一些最先进应用密不可分。 人工智能(AI)中一些最先进的应用不可或缺。

  • 大型语言模型(LLM) GELU 的特殊曲率有助于模型理解语言的细微差别。例如,在 情感分析文本总结中,激活函数 可确保网络层深处保留微妙的上下文信号,从而在现代聊天机器人中生成连贯的文本。 生成。
  • 视觉转换器(ViT) 除了文本之外,GELU 还被用于视觉转换器,它将自我注意机制应用于图像分类。 图像分类。通过促进稳定的 梯度下降,GELU 使这些模型能够 有效地处理图像补丁,在杂乱的场景中高精度地识别物体。

用Python实现

使用现代框架(如 PyTorchTensorFlow.下面的示例演示了如何 在PyTorch 模型组件中实例化 GELU 层。

import torch
import torch.nn as nn

# Define a sample input tensor (batch_size=1, features=5)
input_data = torch.tensor([[-3.0, -1.0, 0.0, 1.0, 3.0]])

# Initialize the GELU activation function
gelu_layer = nn.GELU()

# Apply GELU to the input data
output = gelu_layer(input_data)

# Output demonstrates the smooth suppression of negative values
print(f"Input: {input_data}")
print(f"Output: {output}")

该代码段利用 torch.nn.GELU,记录在 官方PyTorch GELU 应用程序接口,以 转换输入数据。请注意负值是如何被抑制的,但并没有被硬剪切为零,从而保持了平滑的梯度流。 梯度流,这对训练稳健的 机器学习 模型。要进一步了解 有关数学基础的更多信息,请阅读原始研究论文" "。高斯误差线性单位 (GELUs)...... "提供了全面的理论背景。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入