Glossário

SiLU (Unidade Linear Sigmoide)

Descubra como a função de ativação SiLU (Swish) aumenta o desempenho da aprendizagem profunda em tarefas de IA como a deteção de objectos e a PNL.

A Unidade Linear Sigmoide, vulgarmente conhecida como SiLU, é uma função de ativação utilizada em redes neuronais que ganhou popularidade pela sua eficiência e desempenho. É uma função auto-ativada que combina elegantemente as propriedades das funções Sigmoide e Unidade Linear Retificada (ReLU). A SiLU foi introduzida no artigo"Searching for Activation Functions", onde foi originalmente designada por Swish. As suas propriedades únicas, como a suavidade e a não-monotonicidade, permitem-lhe ultrapassar frequentemente as funções de ativação tradicionais, como a ReLU, em modelos profundos, levando a uma melhor precisão e a uma convergência mais rápida durante o treino do modelo.

Como funciona a SiLU

A SiLU é definida pela multiplicação de um valor de entrada pela sua sigmoide. Este mecanismo de autorregulação permite que a função passe suavemente de linear para entradas positivas para quase zero para grandes entradas negativas, o que ajuda a regular o fluxo de informação através da rede. Uma das principais caraterísticas da SiLU é a sua não-monotonicidade; pode cair ligeiramente abaixo de zero para pequenas entradas negativas antes de voltar a subir para zero. Acredita-se que esta propriedade melhora o poder expressivo da rede neural, criando uma paisagem de gradiente mais rica e evitando o problema do gradiente de desaparecimento que pode abrandar ou parar o processo de aprendizagem em arquitecturas profundas. A suavidade da curva SiLU é também uma vantagem significativa, uma vez que garante um gradiente suave para algoritmos de otimização como a descida do gradiente.

SiLU em comparação com outras funções de ativação

A SiLU oferece várias vantagens em relação a outras funções de ativação habitualmente utilizadas, o que a torna uma escolha atraente para as arquitecturas modernas de aprendizagem profunda (DL).

  • ReLU (Unidade Linear Rectificada): Ao contrário da ReLU, que tem uma mudança abrupta em zero e um gradiente zero constante para todas as entradas negativas, a SiLU é uma função suave e contínua. Esta suavidade ajuda durante o processo de retropropagação. Além disso, a SiLU evita o problema da "morte da ReLU", em que os neurónios podem ficar permanentemente inactivos se receberem constantemente entradas negativas.
  • ReLU com vazamento: Embora a Leaky ReLU também resolva o problema dos neurónios em extinção, permitindo um gradiente pequeno e diferente de zero para entradas negativas, a curva suave e não monotónica da SiLU pode, por vezes, conduzir a uma melhor generalização e otimização em redes muito profundas.
  • Sigmoide: A função Sigmoid é um componente central do SiLU, mas as suas aplicações diferem significativamente. A Sigmoide é normalmente usada na camada de saída para tarefas de classificação binária ou como um mecanismo de gating em RNNs. Em contraste, a SiLU é projetada para camadas ocultas e tem demonstrado melhorar o desempenho em redes neurais convolucionais (CNNs).
  • GELU (Unidade Linear de Erro Gaussiano): A SiLU é frequentemente comparada com a GELU, outra função de ativação suave que tem mostrado um excelente desempenho, particularmente em modelos Transformer. Ambas as funções têm formas e caraterísticas de desempenho semelhantes, sendo que a escolha entre elas se resume frequentemente a resultados empíricos da afinação de hiperparâmetros.

Aplicações em IA e aprendizagem automática

O equilíbrio entre eficiência e desempenho fez da SiLU uma escolha popular em vários modelos de última geração.

  • Deteção de objectos: Modelos avançados de deteção de objetos, incluindo versões do Ultralytics YOLO, empregam SiLU em suas camadas ocultas. Por exemplo, em aplicações como veículos autónomos que dependem da deteção em tempo real, a SiLU ajuda o modelo a aprender caraterísticas complexas a partir de dados de sensores de forma mais eficaz, melhorando a precisão da deteção de peões, sinais de trânsito e outros veículos. Esta aprendizagem melhorada de caraterísticas é fundamental para a segurança e fiabilidade, especialmente quando se treina em conjuntos de dados de grande escala como o COCO.
  • Classificação de imagens: A SiLU é um componente chave em modelos de classificação eficientes e poderosos, como a família de modelos EfficientNet. Em áreas como a análise de imagens médicas, a capacidade da SiLU de preservar o fluxo de gradiente ajuda os modelos a aprender texturas e padrões subtis. Isso é benéfico para tarefas como a classificação de tumores em exames de ressonância magnética ou a identificação de doenças em radiografias de tórax, em que a alta precisão é fundamental.

Implementação

O SiLU está prontamente disponível nas principais estruturas de aprendizagem profunda, facilitando a sua incorporação em modelos novos ou existentes.

Plataformas como o Ultralytics HUB oferecem suporte a modelos de treinamento e exploram várias opções de implantação para modelos que utilizam componentes avançados como o SiLU. Pesquisas e recursos contínuos de organizações como DeepLearning.AI ajudam os profissionais a aproveitar essas funções de forma eficaz. A escolha de uma função de ativação continua sendo uma parte crítica do projeto de arquiteturas de rede neural eficazes, e o SiLU representa um avanço significativo nessa área.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Ligue-se, colabore e cresça com inovadores globais

Aderir agora
Ligação copiada para a área de transferência