In künstlichen neuronalen Netzwerken ist die Aktivierungsfunktion eines Knotens eine Schlüsselkomponente bei der Berechnung der Ausgabe eines Knotens, die von seinen verschiedenen Eingaben und deren Gewichten abhängt. Diese Aufzeichnungen der Aktivierungsfunktionen bestimmen, ob komplexe Probleme mit weniger Knoten gelöst werden können.
Moderne Aktivierungsfunktionen umfassen logische Funktionen (Sigmoid), ReLU (Rectified Linear Unit) und glatte Versionen von ReLU, GELU (Gaussian Error Linear Unit) usw.
Mit dem Fortschritt der Technologie wurden in verschiedenen Modellen spezifische Aktivierungsfunktionen implementiert. Beispielsweise verwendete das 2012 von Hinton et al. entwickelte Spracherkennungsmodell logische Funktionen, während die AlexNet-Modelle von 2012 und ResNet-Modelle von 2015 für Computer Vision-Aufgaben auf der ReLU-Architektur basierten. Darüber hinaus verwendete das BERT-Modell von 2018 GELU, und die Leistung dieser verschiedenen Aktivierungsfunktionen bei unterschiedlichen Aufgaben löste umfangreiche Diskussionen aus.
Neben der praktischen Leistung weisen verschiedene Aktivierungsfunktionen auch mathematisch unterschiedliche Eigenschaften auf, wie beispielsweise partielle Nichtlinearität und kontinuierliche Differenzierbarkeit. Nichtlineare Aktivierungsfunktionen ermöglichen den Nachweis zweischichtiger neuronaler Netzwerke als universelle Funktionsapproximatoren, wohingegen lineare Aktivierungsfunktionen diese Eigenschaft nicht erfüllen können. Wenn eine lineare Aktivierungsfunktion für mehrere Schichten verwendet wird, entspricht das gesamte Netzwerk einem einschichtigen Modell.
Wenn der Bereich der Aktivierungsfunktionen endlich ist, sind gradientenbasierte Trainingsmethoden im Allgemeinen stabiler, da die Anzeige von Mustern nur begrenzte Gewichte signifikant beeinflusst.
Wenn der Bereich der Aktivierungsfunktion jedoch unendlich ist, ist das Training normalerweise effizienter, da die Musteranzeige nahezu alle Gewichte beeinflusst. In diesem Fall ist normalerweise eine geringere Lernrate erforderlich.
Die derzeit am häufigsten verwendeten Aktivierungsfunktionen können in drei Kategorien unterteilt werden: Ridge-Funktionen, Radialfunktionen und Faltfunktionen.
Ungesättigte Aktivierungsfunktionen (wie ReLU) können gegenüber gesättigten Aktivierungsfunktionen vorteilhafter sein, da erstere weniger anfällig für das Problem des verschwindenden Gradienten sind.
Die Ridge-Aktivierungsfunktion ist eine multivariate Funktion, die auf eine lineare Kombination von Eingabevariablen einwirkt. Gängige Beispiele sind lineare Aktivierung, ReLU-Aktivierung und logische Aktivierung. Diese Funktionen sind nicht nur biologisch inspiriert, sondern simulieren auch die Feuerungsrate des Aktionspotentials der Zelle.
Wenn die Steigung einer Linie positiv ist, kann sie die Emissionsfrequenz bei zunehmendem Eingangsstrom widerspiegeln.
Radiale Basisfunktionen (RBF) sind ein anderer Typ von Aktivierungsfunktionen, die hauptsächlich in RBF-Netzwerken verwendet werden. Sie können verschiedene Formen annehmen. Die häufigsten sind Gauß-Funktionen und mehrquadratische Differenzfunktionen.
Zusätzlich zu den oben genannten Funktionen können auch periodische Funktionen wie Sinusfunktionen als Aktivierungsfunktionen verwendet werden, da jede periodische Funktion durch Fourier-Transformation in eine lineare Kombination von Sinuswellen zerlegt werden kann. Darüber hinaus wird die Fold-Aktivierungsfunktion häufig in der Pooling-Schicht von Convolutional Neural Networks sowie in der Ausgabeschicht von Multiclass-Klassifizierungsnetzwerken, beispielsweise in der Softmax-Aktivierungsfunktion, verwendet.
In quantenneuronalen Netzwerken kann die Nichtlinearität der Aktivierungsfunktion ohne Messungen der Ausgabe jedes Perzeptrons jeder Schicht implementiert werden.
Die Eigenschaften von Quantencomputern ermöglichen es, solche Quantenschaltkreise zu entwerfen, mit denen sich jede beliebige klassische Aktivierungsfunktion approximieren lässt.
Die Wahl der Aktivierungsfunktion ist für die Leistung neuronaler Netzwerke von entscheidender Bedeutung. Zukünftige Forschungen werden möglicherweise noch mehr unerforschte Aktivierungsfunktionen untersuchen. Wie wirken sich diese auf die Effektivität des gesamten neuronalen Netzwerks aus?