Descubra como a função de ativação GELU aprimora modelos de transformadores como o GPT-4, impulsionando o fluxo de gradiente, a estabilidade e a eficiência.
GELU (Gaussian Error Linear Unit) é uma função de ativação de alto desempenho que se tornou um padrão em arquiteturas de redes neurais de última geração, especialmente modelos Transformer. É conhecida por sua curva suave e não monotônica, que ajuda os modelos a aprender padrões complexos de forma mais eficaz do que as funções mais antigas. Introduzida no artigo "Gaussian Error Linear Units (GELUs)", combina propriedades de outras funções como dropout e ReLU para melhorar a estabilidade do treinamento e o desempenho do modelo.
Ao contrário da ReLU, que corta abruptamente todos os valores negativos, a GELU pondera suas entradas com base em sua magnitude. Ela determina probabilisticamente se deve ativar um neurônio multiplicando a entrada pela função de distribuição cumulativa (CDF) da distribuição gaussiana padrão. Isso significa que as entradas têm maior probabilidade de serem "descartadas" (definidas como zero) quanto mais negativas forem, mas a transição é suave em vez de abrupta. Essa propriedade de regularização estocástica ajuda a evitar problemas como o problema do desaparecimento do gradiente e permite uma representação mais rica dos dados, o que é crucial para modelos modernos de aprendizado profundo.
GELU oferece várias vantagens sobre outras funções de ativação populares, levando à sua ampla adoção.
GELU é um componente chave em muitos dos modelos de IA mais poderosos desenvolvidos até o momento.
GELU está prontamente disponível em todas as principais estruturas de aprendizado profundo, facilitando a incorporação em modelos personalizados.
torch.nn.GELU
, com informações detalhadas no documentação oficial do PyTorch GELU.tf.keras.activations.gelu
, que está documentado no Documentação da API TensorFlow.Os desenvolvedores podem construir, treinar e implementar modelos usando GELU com plataformas como o Ultralytics HUB, que otimiza todo o ciclo de vida de MLOps, desde o aumento de dados até a implementação final do modelo.