Deep learning tidak terlalu misterius atau berbeda

(arxiv.org)

30 poin oleh GN⁺ 2025-03-18 | 1 komentar | Bagikan ke WhatsApp

Ada anggapan bahwa fenomena generalisasi pada model deep learning berbeda dari model sebelumnya dan bersifat misterius
Overfitting, double descent, dan overparametrization sering disebut sebagai ciri khas deep learning
Namun, fenomena-fenomena ini tidak terbatas pada jaringan saraf, dan dapat dijelaskan dengan kerangka generalisasi lama seperti PAC-Bayes dan batas hipotesis yang dapat dijumlahkan
Konsep "soft inductive biases" adalah prinsip kunci untuk menjelaskan fenomena generalisasi ini

Soft Inductive Biases

Inductive bias tradisional bekerja dengan membatasi ruang hipotesis untuk meningkatkan kinerja generalisasi
Soft inductive bias mempertahankan fleksibilitas ruang hipotesis sambil memberi preferensi pada solusi tertentu
Seperti CNN yang mempertahankan lokalitas dan invariansi translasi melalui parameter sharing, pendekatan ini menambahkan regularisasi halus pada sifat tertentu
Alasan model yang overparameterized tetap memiliki kinerja generalisasi yang baik adalah karena soft inductive bias bekerja di dalamnya

Kerangka Generalisasi

PAC-Bayes dan batas hipotesis yang dapat dijumlahkan

PAC-Bayes menjelaskan risiko generalisasi melalui risiko empiris dan compressibility model
Bahkan model besar pun dijamin memiliki kinerja generalisasi yang baik jika model tersebut sederhana dan dapat dikompresi
Rumus:
- risiko yang diharapkan ≤ risiko empiris + komponen terkait compressibility

Dimensionalitas Efektif

Dimensionalitas efektif = jumlah eigenvalue besar dari Hessian fungsi loss model
Semakin rendah dimensionalitas efektif, semakin sederhana model dan semakin baik kinerja generalisasinya

Kerangka generalisasi lainnya

Rademacher complexity, dimensi VC, dan sejenisnya tidak mampu menjelaskan fenomena deep learning dengan baik
PAC-Bayes dan batas hipotesis yang dapat dijumlahkan dapat mengatasi masalah ini

Fenomena utama

Benign Overfitting

Fenomena ketika model mempelajari noise secara sempurna namun tetap memiliki kinerja generalisasi yang baik
Benign overfitting dapat direproduksi bahkan dengan model linear sederhana
Dapat dijelaskan dengan PAC-Bayes dan batas hipotesis yang dapat dijumlahkan

Overparametrization

Kinerja generalisasi model tetap unggul meskipun jumlah parameter lebih banyak daripada jumlah data
Kinerja generalisasi menjadi baik karena model besar dapat dikompresi menjadi struktur yang lebih sederhana setelah pelatihan

Double Descent

Fenomena ketika, saat kompleksitas model meningkat, loss menurun, lalu meningkat, kemudian menurun lagi
Dapat direproduksi juga pada model linear
Dapat dijelaskan melalui dimensionalitas efektif dan compressibility model

Sudut pandang alternatif

Pandangan lama bahwa generalisasi deep learning itu misterius bergantung pada kerangka generalisasi yang terbatas
Dengan PAC-Bayes dan batas hipotesis yang dapat dijumlahkan, fenomena generalisasi dapat dijelaskan
Anggapan bahwa generalisasi deep learning itu misterius mungkin merupakan prasangka yang keliru

Unsur khas deep learning

Representation Learning

Jaringan saraf memiliki kemampuan untuk mempelajari kemiripan dalam data
Dapat mengukur kemiripan dengan lebih baik daripada jarak Euclidean pada data berdimensi tinggi
Menguntungkan untuk interpolation dan extrapolation pada ruang berdimensi tinggi

Universal Learning

Model deep learning menunjukkan kinerja yang konsisten baik di berbagai domain
Menunjukkan performa unggul dalam transfer learning dan in-context learning

Mode Connectivity

Model yang dilatih dari inisialisasi berbeda dapat dihubungkan melalui kurva sederhana
Dimanfaatkan dalam teknik pelatihan seperti SWA(Stochastic Weight Averaging)

Kesimpulan dan prospek

Benign overfitting, overparametrization, dan double descent bukan fenomena yang terbatas pada jaringan saraf
Dapat dijelaskan dengan PAC-Bayes dan batas hipotesis yang dapat dijumlahkan
Deep learning memiliki pembeda pada karakteristik seperti representation learning, universal learning, dan mode connectivity
Kinerja generalisasi tidak berasal dari kompleksitas model, melainkan dari compressibility dan kesederhanaan model

1 komentar

GN⁺ 2025-03-18

Opini Hacker News

Jika Anda tertarik pada machine learning, kuliah Stanford "Probability for computer scientists" adalah sumber yang sangat bagus
- Kuliah ini membahas teori probabilitas dan dasar teoretis machine learning secara mendalam
- Kuliah Andrew Ng juga terkenal, tetapi membutuhkan pemahaman matematis tentang aljabar linear
- Untuk deep learning, pengantar visual dari 3b1b sangat membantu
Dibanding keturunan PAC-Bayes atau teori VC, stabilitas algoritma memberikan penjelasan yang lebih meyakinkan
- Materi terkait dapat dilihat di makalah arXiv
Jika ingin memahami machine learning, saya merekomendasikan "The StatQuest Illustrated Guide to Machine Learning" karya Josh Starmer
- Ia adalah pengajar luar biasa yang mampu menjelaskan ide-ide kompleks dengan jelas dan ringkas
- Formatnya seperti buku anak-anak sehingga mudah dibaca dan dipahami
- Buku terbarunya tentang neural network juga direkomendasikan
DNN tidak memiliki kemampuan generalisasi yang istimewa
- Bahkan generalisasinya bisa lebih lemah daripada teknik yang lebih berprinsip secara matematis seperti SVM
- Jika melatih DNN dengan dataset "Wine Quality" dari UCI Machine Learning Repository, hasilnya buruk dan terjadi overfitting
- "Keajaiban" LLM berasal dari paradigma pelatihannya
- Dengan dataset yang sangat besar, model raksasa dapat digunakan tanpa overfitting
- Sepuluh tahun lalu, prinsip "reusability" belum jelas
Daripada membatasi ruang hipotesis untuk menghindari overfitting, yang penting adalah menerima ruang hipotesis yang fleksibel dan memilih solusi sederhana yang sesuai dengan data
- Ada pertanyaan tentang bagaimana deep learning melakukan ini
- Dulu orang menggunakan pendekatan likelihood yang memberi penalti
- Dalam deep learning, cara memberi penalti pada kompleksitas terasa lebih rumit dan kurang intuitif
Saat pertama kali masuk ke deep learning, mempelajari pembuktian teorema aproksimasi universal sangat membantu
- Jika memahami mengapa neural network dapat mengaproksimasi fungsi, akan lebih mudah memahami semua hal yang dibangun di atasnya
Contoh menarik yang membutuhkan jaringan "deep" dibahas dalam makalah terbaru tentang RNN
- Model minGRU dan minLSTM tidak secara eksplisit memodelkan ketergantungan state, tetapi jika cukup dalam, model tersebut dapat mempelajarinya
Ada gagasan untuk mengumpulkan data teks dan membuat algoritme prediksi dengan menyimpan jarak antar kata
- Saya penasaran seberapa dekat metode ini dengan GPT 2
Saya penasaran di mana batas tentang apa yang didefinisikan dan diatur sebagai 'AI'
Neuron buatan pada dasarnya adalah regresi linear yang ditambahkan fungsi aktivasi agar menjadi nonlinier
- Ketika disusun menjadi jaringan, muncullah hasil yang menarik

Deep learning tidak terlalu misterius atau berbeda

Soft Inductive Biases

Kerangka Generalisasi

PAC-Bayes dan batas hipotesis yang dapat dijumlahkan

Dimensionalitas Efektif

Kerangka generalisasi lainnya

Fenomena utama

Benign Overfitting

Overparametrization

Double Descent

Sudut pandang alternatif

Unsur khas deep learning

Representation Learning

Universal Learning

Mode Connectivity

Kesimpulan dan prospek

Bacaan terkait

1 komentar

Opini Hacker News