Descubra como a função de ativação SiLU (Swish) aumenta o desempenho da aprendizagem profunda em tarefas de IA como a deteção de objectos e a PNL.
A Unidade Linear Sigmoide, vulgarmente conhecida como SiLU, é uma função de ativação utilizada em redes neuronais que ganhou popularidade pela sua eficiência e desempenho. É uma função auto-ativada que combina elegantemente as propriedades das funções Sigmoide e Unidade Linear Retificada (ReLU). A SiLU foi introduzida no artigo"Searching for Activation Functions", onde foi originalmente designada por Swish. As suas propriedades únicas, como a suavidade e a não-monotonicidade, permitem-lhe ultrapassar frequentemente as funções de ativação tradicionais, como a ReLU, em modelos profundos, levando a uma melhor precisão e a uma convergência mais rápida durante o treino do modelo.
A SiLU é definida pela multiplicação de um valor de entrada pela sua sigmoide. Este mecanismo de autorregulação permite que a função passe suavemente de linear para entradas positivas para quase zero para grandes entradas negativas, o que ajuda a regular o fluxo de informação através da rede. Uma das principais caraterísticas da SiLU é a sua não-monotonicidade; pode cair ligeiramente abaixo de zero para pequenas entradas negativas antes de voltar a subir para zero. Acredita-se que esta propriedade melhora o poder expressivo da rede neural, criando uma paisagem de gradiente mais rica e evitando o problema do gradiente de desaparecimento que pode abrandar ou parar o processo de aprendizagem em arquitecturas profundas. A suavidade da curva SiLU é também uma vantagem significativa, uma vez que garante um gradiente suave para algoritmos de otimização como a descida do gradiente.
A SiLU oferece várias vantagens em relação a outras funções de ativação habitualmente utilizadas, o que a torna uma escolha atraente para as arquitecturas modernas de aprendizagem profunda (DL).
O equilíbrio entre eficiência e desempenho fez da SiLU uma escolha popular em vários modelos de última geração.
O SiLU está prontamente disponível nas principais estruturas de aprendizagem profunda, facilitando a sua incorporação em modelos novos ou existentes.
torch.nn.SiLU
, com o oficial Documentação do PyTorch para SiLU disponível.tf.keras.activations.swish
ou tf.keras.activations.silu
, documentado no Documentação do TensorFlow para SiLU.Plataformas como o Ultralytics HUB oferecem suporte a modelos de treinamento e exploram várias opções de implantação para modelos que utilizam componentes avançados como o SiLU. Pesquisas e recursos contínuos de organizações como DeepLearning.AI ajudam os profissionais a aproveitar essas funções de forma eficaz. A escolha de uma função de ativação continua sendo uma parte crítica do projeto de arquiteturas de rede neural eficazes, e o SiLU representa um avanço significativo nessa área.