Em redes neurais artificiais, a função de ativação de um nó é um componente essencial no cálculo da saída de um nó, que depende de suas várias entradas e seus pesos. Esses registros de funções de ativação determinam se problemas complexos podem ser resolvidos com menos nós.
As funções de ativação modernas incluem funções lógicas (sigmoide), ReLU (Unidade Linear Retificada) e versões suaves de ReLU, GELU (Unidade Linear de Erro Gaussiano), etc.
Com o avanço da tecnologia, funções de ativação específicas foram aplicadas em diferentes modelos. Por exemplo, o modelo de reconhecimento de fala desenvolvido por Hinton et al em 2012 usou funções lógicas, enquanto os modelos AlexNet de 2012 e ResNet de 2015 se basearam na arquitetura ReLU para tarefas de visão computacional. Além disso, o modelo BERT de 2018 usou GELU, e o desempenho dessas diferentes funções de ativação em diferentes tarefas gerou ampla discussão.
Além do desempenho prático, várias funções de ativação têm características matematicamente diferentes, como não linearidade parcial e diferenciabilidade contínua. Funções de ativação não lineares permitem que redes neurais de duas camadas sejam demonstradas como aproximadores de funções universais, enquanto funções de ativação lineares não podem satisfazer essa característica. Quando uma função de ativação linear é usada para múltiplas camadas, toda a rede é equivalente a um modelo de camada única.
Quando o intervalo de funções de ativação é finito, os métodos de treinamento baseados em gradiente são geralmente mais estáveis porque a exibição de padrões afeta significativamente apenas pesos limitados.
No entanto, quando o intervalo da função de ativação é infinito, o treinamento geralmente é mais eficiente porque a exibição de padrões afeta quase todos os pesos. Nesse caso, geralmente é necessária uma taxa de aprendizado menor.
As funções de ativação mais comuns do momento podem ser divididas em três categorias: funções de crista, funções radiais e funções de dobramento.
Funções de ativação insaturadas (como ReLU) podem ser mais vantajosas do que funções de ativação saturadas porque as primeiras são menos suscetíveis ao problema do gradiente de desaparecimento.
A função de ativação de crista é uma função multivariada que atua em uma combinação linear de variáveis de entrada. Exemplos comuns incluem ativação linear, ativação ReLU e ativação lógica. Essas funções não são apenas inspiradas biologicamente, mas também simulam a taxa de disparo do potencial de ação da célula.
Se a inclinação de uma linha for positiva, ela pode refletir a frequência de emissão à medida que a corrente de entrada aumenta.
Funções de base radial (RBF) são outro tipo de função de ativação usada principalmente em redes RBF. Elas podem assumir uma variedade de formas, sendo as mais comuns as funções gaussianas e as funções de diferença multiquadrada.
Além das funções acima, funções periódicas, como funções senoidais, também podem ser usadas como funções de ativação, porque qualquer função periódica pode ser decomposta em uma combinação linear de ondas senoidais pela transformada de Fourier. Além disso, a função de ativação de dobra é amplamente utilizada na camada de agrupamento de redes neurais convolucionais, bem como na camada de saída de redes de classificação multiclasse, como a função de ativação softmax.
Em redes neurais quânticas, a não linearidade da função de ativação pode ser implementada sem medições da saída de cada perceptron de cada camada.
As características dos computadores quânticos tornam possível projetar circuitos quânticos que podem ser usados para aproximar qualquer função de ativação clássica arbitrária.
A escolha da função de ativação é crucial para o desempenho das redes neurais, e pesquisas futuras podem explorar funções de ativação mais inexploradas. Como isso afeta a eficácia de toda a rede neural?