人工ニューラル ネットワークでは、ノードの活性化関数は、さまざまな入力とその重みに応じてノードの出力を計算する際の重要なコンポーネントです。これらの活性化関数の記録により、複雑な問題がより少ないノードで解決できるかどうかが判断されます。
最新の活性化関数には、論理関数 (シグモイド)、ReLU (Rectified Linear Unit)、ReLU のスムーズ バージョン、GELU (Gaussian Error Linear Unit) などがあります。
技術の進歩により、さまざまなモデルに特定の活性化関数が適用されています。たとえば、2012 年に Hinton らが開発した音声認識モデルでは論理関数が使用されていましたが、2012 年の AlexNet モデルと 2015 年の ResNet モデルではコンピューター ビジョン タスクに ReLU アーキテクチャが使用されていました。さらに、2018 年の BERT モデルでは GELU が使用され、さまざまなタスクにおけるこれらのさまざまな活性化関数のパフォーマンスが広範な議論を巻き起こしました。
実用的なパフォーマンスに加えて、さまざまな活性化関数は、部分的な非線形性や連続的な微分可能性など、数学的に異なる特性を持っています。非線形活性化関数により、2 層ニューラル ネットワークを汎用関数近似器として実証できますが、線形活性化関数ではこの特性を満たすことができません。線形活性化関数を複数の層に使用すると、ネットワーク全体は単層モデルと同等になります。
活性化関数の範囲が有限である場合、パターンの表示は限られた重みにのみ大きく影響するため、通常、勾配ベースのトレーニング方法の方が安定します。
ただし、活性化関数の範囲が無限である場合、パターンの表示がほぼすべての重みに影響するため、通常、トレーニングはより効率的になります。この場合、通常はより小さい学習率が必要になります。
現在最も一般的な活性化関数は、リッジ関数、ラジアル関数、フォールディング関数の 3 つのカテゴリに分類できます。
不飽和活性化関数(ReLU など)は、勾配消失問題の影響を受けにくいため、飽和活性化関数よりも有利な場合があります。
リッジ活性化関数は、入力変数の線形結合に作用する多変量関数です。一般的な例としては、線形活性化、ReLU 活性化、論理活性化などがあります。これらの機能は生物学的にヒントを得たものであるだけでなく、細胞の活動電位の発火率をシミュレートします。
線の傾きが正の場合、入力電流が増加するにつれて放射周波数を反映できます。
ラジアル基底関数 (RBF) は、RBF ネットワークで主に使用される別のタイプの活性化関数です。さまざまな形式を取ることができますが、最も一般的なものはガウス関数と多重二乗差分関数です。
上記の関数に加えて、正弦関数などの周期関数も活性化関数として使用できます。これは、任意の周期関数がフーリエ変換によって正弦波の線形結合に分解できるためです。さらに、フォールド活性化関数は、畳み込みニューラル ネットワークのプーリング層や、ソフトマックス活性化関数などのマルチクラス分類ネットワークの出力層でも広く使用されています。
量子ニューラル ネットワークでは、各層の各パーセプトロンの出力を測定しなくても、活性化関数の非線形性を実装できます。
量子コンピュータの特性により、任意の古典的な活性化関数を近似するために使用できる量子回路を設計することが可能になります。
活性化関数の選択はニューラル ネットワークのパフォーマンスにとって非常に重要であり、将来の研究ではさらに未調査の活性化関数が調査される可能性があります。これはニューラル ネットワーク全体の有効性にどのように影響するのでしょうか?