En las redes neuronales artificiales, la función de activación de un nodo es un componente clave para calcular la salida de un nodo, que depende de sus diversas entradas y sus pesos. Estos registros de funciones de activación determinan si los problemas complejos pueden resolverse con menos nodos.
Las funciones de activación modernas incluyen funciones lógicas (sigmoideas), ReLU (unidad lineal rectificada) y versiones suaves de ReLU, GELU (unidad lineal de error gaussiano), etc.
Con el avance de la tecnología, se han aplicado funciones de activación específicas en diferentes modelos. Por ejemplo, el modelo de reconocimiento de voz desarrollado por Hinton et al en 2012 utilizó funciones lógicas, mientras que los modelos AlexNet de 2012 y ResNet de 2015 se basaron en la arquitectura ReLU para tareas de visión por computadora. Además, el modelo BERT 2018 utilizó GELU, y el desempeño de estas diferentes funciones de activación en diferentes tareas generó un extenso debate.
Comparación de funciones de activaciónAdemás del rendimiento práctico, varias funciones de activación tienen características matemáticas diferentes, como la no linealidad parcial y la diferenciabilidad continua. La función de activación no lineal permite demostrar que la red neuronal de dos capas es un aproximador de funciones universal, mientras que la función de activación lineal no puede satisfacer esta característica. Cuando se utiliza una función de activación lineal para múltiples capas, toda la red es equivalente a un modelo de una sola capa.
Cuando el rango de funciones de activación es finito, los métodos de entrenamiento basados en gradientes suelen ser más estables porque la visualización de patrones afecta significativamente solo a pesos limitados.
Sin embargo, cuando el rango de la función de activación es infinito, el entrenamiento suele ser más eficiente porque la visualización de patrones afecta a casi todos los pesos. En este caso normalmente se requiere una tasa de aprendizaje menor.
Las funciones de activación más comunes actualmente se pueden dividir en tres categorías: funciones de cresta, funciones radiales y funciones de plegado.
Las funciones de activación insaturadas (como ReLU) pueden ser más ventajosas que las funciones de activación saturadas porque las primeras son menos susceptibles al problema del gradiente evanescente.
La función de activación de cresta es una función multivariable que actúa sobre una combinación lineal de variables de entrada. Los ejemplos comunes incluyen activación lineal, activación ReLU y activación lógica. Estas funciones no sólo están inspiradas biológicamente, sino que también simulan la tasa de disparo del potencial de acción de la célula.
Si la pendiente de una línea es positiva, entonces puede reflejar la frecuencia de emisión a medida que aumenta la corriente de entrada.
Las funciones de base radial (RBF) son otro tipo de función de activación utilizada principalmente en redes RBF. Pueden adoptar diversas formas, siendo las más comunes las funciones gaussianas y las funciones de diferencia multicuadrada.
Además de las funciones anteriores, las funciones periódicas como las funciones seno también se pueden utilizar como funciones de activación porque cualquier función periódica se puede descomponer en una combinación lineal de ondas seno mediante la transformada de Fourier. Además, las funciones de activación de pliegues se utilizan ampliamente en la capa de agrupación de redes neuronales convolucionales, así como en la capa de salida de redes de clasificación de múltiples clases, como la función de activación softmax.
En las redes neuronales cuánticas, la no linealidad de la función de activación se puede implementar sin mediciones de la salida de cada perceptrón de cada capa.
Las características de los ordenadores cuánticos hacen posible diseñar circuitos cuánticos que puedan utilizarse para aproximar cualquier función de activación clásica arbitraria.
La elección de la función de activación es crucial para el rendimiento de las redes neuronales, y estudios futuros pueden explorar funciones de activación más inexploradas. ¿Cómo afecta esto a la eficacia de toda la red neuronal?