Dengan pesatnya perkembangan kecerdasan buatan dan teknologi pembelajaran mesin, fungsi aktivasi yang digunakan dalam jaringan saraf telah menjadi pusat penelitian, di antaranya fungsi aktivasi ReLU (unit linier terektifikasi) sangat penting.
Dalam model pembelajaran mendalam kontemporer, fungsi aktivasi ReLU digunakan secara luas karena kesederhanaannya, kemudahan penggunaan, dan efisiensinya yang tinggi. Prinsip operasi dasarnya adalah mengeluarkan nilai input yang kurang dari atau sama dengan nol sebagai nol, dan langsung mengeluarkan nilai positif. Desain ini memberinya keuntungan besar dalam komputasi.
Latar belakang historis fungsi aktivasi ReLU dapat ditelusuri kembali ke tahun 1941, ketika pertama kali diusulkan sebagai abstraksi matematis dari jaringan saraf biologis. Setelah beberapa dekade pengembangan, terutama pada tahun 2011, pengenalan ReLU merevolusi pelatihan model pembelajaran mendalam, membuatnya tidak lagi bergantung pada pra-pelatihan tanpa pengawasan.
Keuntungan ReLU terutama mencakup aktivasi jarang dan perambatan gradien yang lebih baik. Aktivasi jarang ReLU berarti bahwa sekitar 50% unit tersembunyi dalam jaringan saraf yang diinisialisasi secara acak tidak diaktifkan. Fitur ini tidak hanya meningkatkan efisiensi komputasi, tetapi juga mengurangi risiko masalah hilangnya gradien, karena ReLU dapat meneruskan gradien kembali dengan lebih efektif dalam beberapa kasus dibandingkan dengan fungsi aktivasi jenuh.
Masalah ini sebagian besar disebabkan oleh pengaturan laju pembelajaran yang terlalu tinggi, karena ukuran langkah pembaruan yang terlalu besar dapat menyebabkan perubahan bobot yang ekstrem, yang menyebabkan beberapa neuron memasuki status "mati" dan mencegah seluruh jaringan saraf mengalami kebocoran. kemampuan. Untuk mengatasi tantangan ini, para peneliti telah mengusulkan beberapa varian, di antaranya "Leaky ReLU" adalah versi perbaikan yang terkenal, yang memperkenalkan kemiringan positif kecil untuk input negatif berdasarkan ReLU.Namun, ReLU bukannya tanpa kekurangan. Salah satu masalah terbesarnya adalah fenomena "ReLU mati". Dalam kasus ini, neuron tetap tidak aktif untuk hampir semua data masukan, yang mengakibatkan ketidakmampuan untuk memperoleh umpan balik yang efektif dari keluarannya untuk pembelajaran.
Selain Leaky ReLU, banyak varian nonlinier lainnya telah diusulkan, seperti ReLU berparameter (PReLU), unit linier eksponensial (ELU), dll. Varian ini dapat mengurangi dampak ReLU yang sekarat sampai batas tertentu dan meningkatkan kinerja model dalam beberapa tugas.
Misalnya, ELU meningkatkan efisiensi pembelajaran model dengan mendekati rata-rata aktivasi menjadi nol, dan eksperimen menunjukkan bahwa ia melampaui ReLU tradisional dalam akurasi klasifikasi.
Di antara berbagai fungsi aktivasi ini, baik itu GELU, SiLU, atau Softplus, masing-masing memiliki karakteristik dan kelebihannya sendiri. Dalam konteks industri antara pembelajaran terbimbing dan tak terbimbing, memilih fungsi aktivasi yang sesuai sangat penting karena fungsi yang berbeda dapat menyebabkan efek pembelajaran yang berbeda.
Menghadapi persyaratan aplikasi yang semakin kompleks, para peneliti perlu terus mengeksplorasi fungsi aktivasi baru untuk mengatasi keterbatasan teknologi saat ini.
Dalam proses ini, sebaiknya kita pikirkan: Bagaimana kita dapat mempertahankan fleksibilitas dan ekspresi jaringan saraf sambil membiarkan fungsi aktivasi berperan bebas dalam berbagai situasi, sehingga meningkatkan efek pembelajaran secara keseluruhan?