- Ada anggapan bahwa fenomena generalisasi pada model deep learning berbeda dari model sebelumnya dan bersifat misterius
- Overfitting, double descent, dan overparametrization sering disebut sebagai ciri khas deep learning
- Namun, fenomena-fenomena ini tidak terbatas pada jaringan saraf, dan dapat dijelaskan dengan kerangka generalisasi lama seperti PAC-Bayes dan batas hipotesis yang dapat dijumlahkan
- Konsep "soft inductive biases" adalah prinsip kunci untuk menjelaskan fenomena generalisasi ini
Soft Inductive Biases
- Inductive bias tradisional bekerja dengan membatasi ruang hipotesis untuk meningkatkan kinerja generalisasi
- Soft inductive bias mempertahankan fleksibilitas ruang hipotesis sambil memberi preferensi pada solusi tertentu
- Seperti CNN yang mempertahankan lokalitas dan invariansi translasi melalui parameter sharing, pendekatan ini menambahkan regularisasi halus pada sifat tertentu
- Alasan model yang overparameterized tetap memiliki kinerja generalisasi yang baik adalah karena soft inductive bias bekerja di dalamnya
Kerangka Generalisasi
PAC-Bayes dan batas hipotesis yang dapat dijumlahkan
- PAC-Bayes menjelaskan risiko generalisasi melalui risiko empiris dan compressibility model
- Bahkan model besar pun dijamin memiliki kinerja generalisasi yang baik jika model tersebut sederhana dan dapat dikompresi
- Rumus:
- risiko yang diharapkan ≤ risiko empiris + komponen terkait compressibility
Dimensionalitas Efektif
- Dimensionalitas efektif = jumlah eigenvalue besar dari Hessian fungsi loss model
- Semakin rendah dimensionalitas efektif, semakin sederhana model dan semakin baik kinerja generalisasinya
Kerangka generalisasi lainnya
- Rademacher complexity, dimensi VC, dan sejenisnya tidak mampu menjelaskan fenomena deep learning dengan baik
- PAC-Bayes dan batas hipotesis yang dapat dijumlahkan dapat mengatasi masalah ini
Fenomena utama
Benign Overfitting
- Fenomena ketika model mempelajari noise secara sempurna namun tetap memiliki kinerja generalisasi yang baik
- Benign overfitting dapat direproduksi bahkan dengan model linear sederhana
- Dapat dijelaskan dengan PAC-Bayes dan batas hipotesis yang dapat dijumlahkan
Overparametrization
- Kinerja generalisasi model tetap unggul meskipun jumlah parameter lebih banyak daripada jumlah data
- Kinerja generalisasi menjadi baik karena model besar dapat dikompresi menjadi struktur yang lebih sederhana setelah pelatihan
Double Descent
- Fenomena ketika, saat kompleksitas model meningkat, loss menurun, lalu meningkat, kemudian menurun lagi
- Dapat direproduksi juga pada model linear
- Dapat dijelaskan melalui dimensionalitas efektif dan compressibility model
Sudut pandang alternatif
- Pandangan lama bahwa generalisasi deep learning itu misterius bergantung pada kerangka generalisasi yang terbatas
- Dengan PAC-Bayes dan batas hipotesis yang dapat dijumlahkan, fenomena generalisasi dapat dijelaskan
- Anggapan bahwa generalisasi deep learning itu misterius mungkin merupakan prasangka yang keliru
Unsur khas deep learning
Representation Learning
- Jaringan saraf memiliki kemampuan untuk mempelajari kemiripan dalam data
- Dapat mengukur kemiripan dengan lebih baik daripada jarak Euclidean pada data berdimensi tinggi
- Menguntungkan untuk interpolation dan extrapolation pada ruang berdimensi tinggi
Universal Learning
- Model deep learning menunjukkan kinerja yang konsisten baik di berbagai domain
- Menunjukkan performa unggul dalam transfer learning dan in-context learning
Mode Connectivity
- Model yang dilatih dari inisialisasi berbeda dapat dihubungkan melalui kurva sederhana
- Dimanfaatkan dalam teknik pelatihan seperti SWA(Stochastic Weight Averaging)
Kesimpulan dan prospek
- Benign overfitting, overparametrization, dan double descent bukan fenomena yang terbatas pada jaringan saraf
- Dapat dijelaskan dengan PAC-Bayes dan batas hipotesis yang dapat dijumlahkan
- Deep learning memiliki pembeda pada karakteristik seperti representation learning, universal learning, dan mode connectivity
- Kinerja generalisasi tidak berasal dari kompleksitas model, melainkan dari compressibility dan kesederhanaan model
1 komentar
Opini Hacker News
Jika Anda tertarik pada machine learning, kuliah Stanford "Probability for computer scientists" adalah sumber yang sangat bagus
Dibanding keturunan PAC-Bayes atau teori VC, stabilitas algoritma memberikan penjelasan yang lebih meyakinkan
Jika ingin memahami machine learning, saya merekomendasikan "The StatQuest Illustrated Guide to Machine Learning" karya Josh Starmer
DNN tidak memiliki kemampuan generalisasi yang istimewa
Daripada membatasi ruang hipotesis untuk menghindari overfitting, yang penting adalah menerima ruang hipotesis yang fleksibel dan memilih solusi sederhana yang sesuai dengan data
Saat pertama kali masuk ke deep learning, mempelajari pembuktian teorema aproksimasi universal sangat membantu
Contoh menarik yang membutuhkan jaringan "deep" dibahas dalam makalah terbaru tentang RNN
Ada gagasan untuk mengumpulkan data teks dan membuat algoritme prediksi dengan menyimpan jarak antar kata
Saya penasaran di mana batas tentang apa yang didefinisikan dan diatur sebagai 'AI'
Neuron buatan pada dasarnya adalah regresi linear yang ditambahkan fungsi aktivasi agar menjadi nonlinier