30 poin oleh GN⁺ 2025-03-18 | 1 komentar | Bagikan ke WhatsApp
  • Ada anggapan bahwa fenomena generalisasi pada model deep learning berbeda dari model sebelumnya dan bersifat misterius
  • Overfitting, double descent, dan overparametrization sering disebut sebagai ciri khas deep learning
  • Namun, fenomena-fenomena ini tidak terbatas pada jaringan saraf, dan dapat dijelaskan dengan kerangka generalisasi lama seperti PAC-Bayes dan batas hipotesis yang dapat dijumlahkan
  • Konsep "soft inductive biases" adalah prinsip kunci untuk menjelaskan fenomena generalisasi ini

Soft Inductive Biases

  • Inductive bias tradisional bekerja dengan membatasi ruang hipotesis untuk meningkatkan kinerja generalisasi
  • Soft inductive bias mempertahankan fleksibilitas ruang hipotesis sambil memberi preferensi pada solusi tertentu
  • Seperti CNN yang mempertahankan lokalitas dan invariansi translasi melalui parameter sharing, pendekatan ini menambahkan regularisasi halus pada sifat tertentu
  • Alasan model yang overparameterized tetap memiliki kinerja generalisasi yang baik adalah karena soft inductive bias bekerja di dalamnya

Kerangka Generalisasi

PAC-Bayes dan batas hipotesis yang dapat dijumlahkan

  • PAC-Bayes menjelaskan risiko generalisasi melalui risiko empiris dan compressibility model
  • Bahkan model besar pun dijamin memiliki kinerja generalisasi yang baik jika model tersebut sederhana dan dapat dikompresi
  • Rumus:
    • risiko yang diharapkan ≤ risiko empiris + komponen terkait compressibility

Dimensionalitas Efektif

  • Dimensionalitas efektif = jumlah eigenvalue besar dari Hessian fungsi loss model
  • Semakin rendah dimensionalitas efektif, semakin sederhana model dan semakin baik kinerja generalisasinya

Kerangka generalisasi lainnya

  • Rademacher complexity, dimensi VC, dan sejenisnya tidak mampu menjelaskan fenomena deep learning dengan baik
  • PAC-Bayes dan batas hipotesis yang dapat dijumlahkan dapat mengatasi masalah ini

Fenomena utama

Benign Overfitting

  • Fenomena ketika model mempelajari noise secara sempurna namun tetap memiliki kinerja generalisasi yang baik
  • Benign overfitting dapat direproduksi bahkan dengan model linear sederhana
  • Dapat dijelaskan dengan PAC-Bayes dan batas hipotesis yang dapat dijumlahkan

Overparametrization

  • Kinerja generalisasi model tetap unggul meskipun jumlah parameter lebih banyak daripada jumlah data
  • Kinerja generalisasi menjadi baik karena model besar dapat dikompresi menjadi struktur yang lebih sederhana setelah pelatihan

Double Descent

  • Fenomena ketika, saat kompleksitas model meningkat, loss menurun, lalu meningkat, kemudian menurun lagi
  • Dapat direproduksi juga pada model linear
  • Dapat dijelaskan melalui dimensionalitas efektif dan compressibility model

Sudut pandang alternatif

  • Pandangan lama bahwa generalisasi deep learning itu misterius bergantung pada kerangka generalisasi yang terbatas
  • Dengan PAC-Bayes dan batas hipotesis yang dapat dijumlahkan, fenomena generalisasi dapat dijelaskan
  • Anggapan bahwa generalisasi deep learning itu misterius mungkin merupakan prasangka yang keliru

Unsur khas deep learning

Representation Learning

  • Jaringan saraf memiliki kemampuan untuk mempelajari kemiripan dalam data
  • Dapat mengukur kemiripan dengan lebih baik daripada jarak Euclidean pada data berdimensi tinggi
  • Menguntungkan untuk interpolation dan extrapolation pada ruang berdimensi tinggi

Universal Learning

  • Model deep learning menunjukkan kinerja yang konsisten baik di berbagai domain
  • Menunjukkan performa unggul dalam transfer learning dan in-context learning

Mode Connectivity

  • Model yang dilatih dari inisialisasi berbeda dapat dihubungkan melalui kurva sederhana
  • Dimanfaatkan dalam teknik pelatihan seperti SWA(Stochastic Weight Averaging)

Kesimpulan dan prospek

  • Benign overfitting, overparametrization, dan double descent bukan fenomena yang terbatas pada jaringan saraf
  • Dapat dijelaskan dengan PAC-Bayes dan batas hipotesis yang dapat dijumlahkan
  • Deep learning memiliki pembeda pada karakteristik seperti representation learning, universal learning, dan mode connectivity
  • Kinerja generalisasi tidak berasal dari kompleksitas model, melainkan dari compressibility dan kesederhanaan model

1 komentar

 
GN⁺ 2025-03-18
Opini Hacker News
  • Jika Anda tertarik pada machine learning, kuliah Stanford "Probability for computer scientists" adalah sumber yang sangat bagus

    • Kuliah ini membahas teori probabilitas dan dasar teoretis machine learning secara mendalam
    • Kuliah Andrew Ng juga terkenal, tetapi membutuhkan pemahaman matematis tentang aljabar linear
    • Untuk deep learning, pengantar visual dari 3b1b sangat membantu
  • Dibanding keturunan PAC-Bayes atau teori VC, stabilitas algoritma memberikan penjelasan yang lebih meyakinkan

    • Materi terkait dapat dilihat di makalah arXiv
  • Jika ingin memahami machine learning, saya merekomendasikan "The StatQuest Illustrated Guide to Machine Learning" karya Josh Starmer

    • Ia adalah pengajar luar biasa yang mampu menjelaskan ide-ide kompleks dengan jelas dan ringkas
    • Formatnya seperti buku anak-anak sehingga mudah dibaca dan dipahami
    • Buku terbarunya tentang neural network juga direkomendasikan
  • DNN tidak memiliki kemampuan generalisasi yang istimewa

    • Bahkan generalisasinya bisa lebih lemah daripada teknik yang lebih berprinsip secara matematis seperti SVM
    • Jika melatih DNN dengan dataset "Wine Quality" dari UCI Machine Learning Repository, hasilnya buruk dan terjadi overfitting
    • "Keajaiban" LLM berasal dari paradigma pelatihannya
    • Dengan dataset yang sangat besar, model raksasa dapat digunakan tanpa overfitting
    • Sepuluh tahun lalu, prinsip "reusability" belum jelas
  • Daripada membatasi ruang hipotesis untuk menghindari overfitting, yang penting adalah menerima ruang hipotesis yang fleksibel dan memilih solusi sederhana yang sesuai dengan data

    • Ada pertanyaan tentang bagaimana deep learning melakukan ini
    • Dulu orang menggunakan pendekatan likelihood yang memberi penalti
    • Dalam deep learning, cara memberi penalti pada kompleksitas terasa lebih rumit dan kurang intuitif
  • Saat pertama kali masuk ke deep learning, mempelajari pembuktian teorema aproksimasi universal sangat membantu

    • Jika memahami mengapa neural network dapat mengaproksimasi fungsi, akan lebih mudah memahami semua hal yang dibangun di atasnya
  • Contoh menarik yang membutuhkan jaringan "deep" dibahas dalam makalah terbaru tentang RNN

    • Model minGRU dan minLSTM tidak secara eksplisit memodelkan ketergantungan state, tetapi jika cukup dalam, model tersebut dapat mempelajarinya
  • Ada gagasan untuk mengumpulkan data teks dan membuat algoritme prediksi dengan menyimpan jarak antar kata

    • Saya penasaran seberapa dekat metode ini dengan GPT 2
  • Saya penasaran di mana batas tentang apa yang didefinisikan dan diatur sebagai 'AI'

  • Neuron buatan pada dasarnya adalah regresi linear yang ditambahkan fungsi aktivasi agar menjadi nonlinier

    • Ketika disusun menjadi jaringan, muncullah hasil yang menarik