Penurunan gradien stokastik (SGD) adalah metode iteratif untuk mengoptimalkan fungsi objektif yang telah mengalami evolusi fenomenal sejak tahun 1950-an, terutama dalam konteks pembelajaran mesin. Metode ini pertama kali diusulkan oleh Herbert Robbins dan Sutton Monod pada tahun 1951. Ide intinya adalah untuk memperkirakan gradien aktual dari kumpulan data dengan memperkirakannya pada subset data yang dipilih secara acak. Strategi ini memungkinkan SGD untuk mengurangi beban komputasi dan mencapai iterasi yang lebih cepat saat menangani masalah pengoptimalan berdimensi tinggi.
"Penurunan gradien stokastik menyediakan cara yang efisien untuk memecahkan masalah pengoptimalan pada kumpulan data besar."
Dalam estimasi statistik dan pembelajaran mesin, mempersempit masalah minimisasi fungsi objektif dianggap sangat penting. Masalah-masalah ini sering kali dapat dinyatakan sebagai jumlah di mana setiap suku dikaitkan dengan pengamatan dalam kumpulan data. Dalam statistik, masalah minimisasi semacam itu muncul dalam metode kuadrat terkecil dan estimasi kemungkinan maksimum. Dengan pesatnya perkembangan pembelajaran mendalam saat ini, penurunan gradien stokastik telah menjadi alat penting dalam algoritme pengoptimalan.
Fitur utama penurunan gradien stokastik adalah ia hanya menggunakan satu sampel untuk menghitung gradien pada setiap pembaruan. Hal ini membuat biaya komputasi untuk melakukan setiap iterasi secara signifikan lebih rendah ketika kumpulan data sangat besar. Untuk lebih meningkatkan efisiensi, penelitian selanjutnya memperkenalkan konsep penurunan gradien mini-batch, yang menggunakan beberapa sampel dalam setiap pembaruan, sehingga memanfaatkan pustaka vektor untuk mempercepat komputasi.
“Metode mini-batch menggabungkan efisiensi penurunan gradien stokastik dengan stabilitas metode batch.”
Ambil regresi linier sebagai contoh, parameter model optimal dapat diperoleh dengan meminimalkan perbedaan antara nilai prediksi dan nilai sebenarnya. Ini dapat dicapai dengan menggunakan penurunan gradien stokastik, di mana parameter diperbarui satu titik data pada satu waktu. Ini tidak hanya memungkinkan pemrosesan data dalam jumlah besar, tetapi juga meningkatkan kecepatan pembaruan model.
Sejak karya awal Robbins dan Monod, penurunan gradien stokastik telah mengalami beberapa perubahan besar. Pada tahun 1956, Jack Keefer dan Jacob Wolfowitz menerbitkan algoritma pengoptimalan yang sangat mirip dengan penurunan gradien stokastik, dan Frank Rosenblatt menggunakan metode ini untuk mengoptimalkan perseptronnya pada tahun yang sama. Model. Dengan deskripsi pertama algoritma back-propagation, SGD telah digunakan secara luas untuk optimasi parameter jaringan saraf multi-lapis.
Pada tahun 2010-an, varian penurunan gradien stokastik muncul satu demi satu, terutama teknik untuk menyesuaikan laju pembelajaran secara otomatis, seperti AdaGrad, RMSprop, dan Adam. Metode-metode ini membuat SGD lebih efektif dalam menangani tugas-tugas pembelajaran yang kompleks. Saat ini, sebagian besar pustaka pembelajaran mesin arus utama seperti TensorFlow dan PyTorch menyertakan pengoptimal berbasis Adam, yang telah menjadi landasan pembelajaran mesin modern.
Hingga saat ini, aplikasi penurunan gradien stokastik telah menyebar ke banyak bidang, termasuk visi komputer, pengenalan suara, dan pemrosesan bahasa alami. Di bidang-bidang ini, SGD digunakan secara luas karena efisiensinya yang tinggi dan fleksibilitasnya, menjadi alat penting untuk melatih model pembelajaran mendalam. Dari masa lalu hingga sekarang, penurunan gradien stokastik tidak hanya mengubah cara kita menangani big data, tetapi juga membuka jalan bagi pengembangan kecerdasan buatan.
"Penurunan gradien stokastik bukan hanya kemajuan teknologi, tetapi juga kekuatan pendorong penting untuk mewujudkan dunia yang cerdas."
Dari percobaan awal pada tahun 1950-an hingga aplikasi yang meluas saat ini, penurunan gradien stokastik telah menunjukkan vitalitas dan kemampuan adaptasinya yang kuat. Bagaimana hal itu akan memengaruhi kemajuan teknologi baru di masa mendatang?