Sintonize na YOLO Vision 2025!
25 de setembro de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024
Glossário

GELU (Gaussian Error Linear Unit)

Descubra como a função de ativação GELU aprimora modelos de transformadores como o GPT-4, impulsionando o fluxo de gradiente, a estabilidade e a eficiência.

GELU (Gaussian Error Linear Unit) é uma função de ativação de alto desempenho que se tornou um padrão em arquiteturas de redes neurais de última geração, especialmente modelos Transformer. É conhecida por sua curva suave e não monotônica, que ajuda os modelos a aprender padrões complexos de forma mais eficaz do que as funções mais antigas. Introduzida no artigo "Gaussian Error Linear Units (GELUs)", combina propriedades de outras funções como dropout e ReLU para melhorar a estabilidade do treinamento e o desempenho do modelo.

Como o GELU Funciona

Ao contrário da ReLU, que corta abruptamente todos os valores negativos, a GELU pondera suas entradas com base em sua magnitude. Ela determina probabilisticamente se deve ativar um neurônio multiplicando a entrada pela função de distribuição cumulativa (CDF) da distribuição gaussiana padrão. Isso significa que as entradas têm maior probabilidade de serem "descartadas" (definidas como zero) quanto mais negativas forem, mas a transição é suave em vez de abrupta. Essa propriedade de regularização estocástica ajuda a evitar problemas como o problema do desaparecimento do gradiente e permite uma representação mais rica dos dados, o que é crucial para modelos modernos de aprendizado profundo.

GELU vs. Outras Funções de Ativação

GELU oferece várias vantagens sobre outras funções de ativação populares, levando à sua ampla adoção.

  • GELU vs. ReLU: A principal diferença é a suavidade da GELU. Embora a ReLU seja computacionalmente simples, seu canto agudo em zero pode, às vezes, levar ao problema da "ReLU morrendo", onde os neurônios se tornam permanentemente inativos. A curva suave da GELU evita esse problema, facilitando um descida do gradiente mais estável e, muitas vezes, levando a uma melhor precisão final.
  • GELU vs. Leaky ReLU: A Leaky ReLU tenta corrigir o problema da ReLU morrendo, permitindo uma pequena inclinação negativa para entradas negativas. No entanto, a natureza não linear e curva da GELU fornece uma faixa de ativação mais dinâmica que demonstrou superar a Leaky ReLU em muitas tarefas de aprendizado profundo.
  • GELU vs. SiLU (Swish): A Unidade Linear Sigmoide (SiLU), também conhecida como Swish, é muito semelhante à GELU. Ambas são funções suaves e não monotônicas que têm demonstrado excelente desempenho. A escolha entre elas muitas vezes se resume a testes empíricos para uma arquitetura e um conjunto de dados específicos, embora algumas pesquisas sugiram que a SiLU pode ser ligeiramente mais eficiente em certos modelos de visão computacional. Modelos como o Ultralytics YOLO frequentemente utilizam a SiLU por seu equilíbrio entre desempenho e eficiência.

Aplicações em IA e Deep Learning

GELU é um componente chave em muitos dos modelos de IA mais poderosos desenvolvidos até o momento.

Implementação e Uso

GELU está prontamente disponível em todas as principais estruturas de aprendizado profundo, facilitando a incorporação em modelos personalizados.

Os desenvolvedores podem construir, treinar e implementar modelos usando GELU com plataformas como o Ultralytics HUB, que otimiza todo o ciclo de vida de MLOps, desde o aumento de dados até a implementação final do modelo.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora
Link copiado para a área de transferência