- Berbagai model deep learning terbukti melalui eksperimen skala besar tetap berkumpul pada subruang parameter berdimensi rendah yang sama, meskipun dilatih dengan data dan nilai awal yang berbeda
- Hasil analisis spektral terhadap lebih dari 1.100 model (500 Mistral-7B LoRA, 500 Vision Transformer, 50 LLaMA-8B, dan lainnya) menunjukkan bahwa sebagian besar varians terkonsentrasi pada sejumlah kecil arah komponen utama
- Subruang universal (Universal Subspace) ini terbentuk sesuai arsitektur model dan berulang muncul terlepas dari data maupun inisialisasi
- Struktur ini memiliki potensi besar untuk kompresi model, pembelajaran hemat parameter, penggabungan model, dan inferensi cepat
- Riset ini memberi petunjuk baru untuk memahami struktur intrinsik jaringan saraf dan kemampuan generalisasi, serta dapat menjadi landasan penting bagi perancangan algoritme pembelajaran yang efisien di masa depan
Penemuan subruang universal
- Diamati bahwa jaringan deep learning yang dilatih dengan beragam dataset, inisialisasi, dan hyperparameter berkumpul pada subruang berdimensi rendah yang sama
- Fenomena ini muncul sebagai struktur low-rank yang serupa menurut arsitektur dan lapisan
- Bahkan ketika data pelatihan atau fungsi loss berbeda, kecenderungan struktural yang sama tetap terlihat
- Hasil analisis spektral menunjukkan bahwa ruang bobot tiap tugas tampak berbeda, tetapi sebenarnya merupakan bagian dari ruang berdimensi rendah yang dibagikan bersama
- Temuan ini diajukan sebagai dasar untuk menjelaskan mengapa model yang overfit tetap bisa melakukan generalisasi, mengapa inisialisasi yang berbeda tetap berkumpul pada representasi serupa, dan mengapa fine-tuning hemat parameter berhasil
Eksperimen dan analisis skala besar
- Riset ini menganalisis lebih dari 1.100 model, termasuk 500 adapter Mistral-7B LoRA, 500 Vision Transformer, dan 50 model LLaMA3-8B
- Setiap model dilatih dengan dataset dan kondisi inisialisasi yang berbeda
- Hasil analisis komponen utama (PCA) menunjukkan bahwa hanya sedikit komponen utama yang menjelaskan sebagian besar varians, yang mengindikasikan adanya subruang low-rank bersama
- Secara khusus, bahkan 500 model ViT yang diinisialisasi secara acak pun berkumpul pada subruang berdimensi rendah yang sama, yang ditafsirkan sebagai sifat mendasar jaringan saraf
Pemodelan teoretis dan formalisasi matematis
- Riset ini memodelkan prediktor sebagai elemen dalam ruang Hilbert (Hilbert space), lalu menganalisis syarat pemulihan subruang bersama di antara berbagai tugas
- Dari prediktor tiap tugas ( f_t^* ), didefinisikan operator momen orde dua bersama S, dan dibuktikan bahwa operator aproksimasi ( \tilde{S} ) dari prediktor terlatih ( \hat{f_t} ) berkonvergensi ke S
- Theorem 2.5 menunjukkan bahwa subruang yang dipelajari berkonvergensi ke subruang bersama yang sebenarnya, dengan laju konvergensi ditentukan oleh jumlah tugas (T) dan akurasi estimasi tiap tugas (η)
- Semakin besar jarak antar nilai eigen (γₖ), semakin stabil pemulihan subruangnya
Potensi aplikasi dan dampak
- Dengan memanfaatkan subruang bersama, aplikasi berikut dimungkinkan
- Kompresi model dengan menyimpan hanya koefisien subruang alih-alih seluruh bobot
- Adaptasi cepat ke tugas baru di dalam subruang yang telah dipelajari
- Memberikan wawasan teoretis tentang batas generalisasi dan lanskap optimisasi
- Mengurangi biaya komputasi pelatihan dan inferensi, sehingga berpotensi menurunkan emisi karbon
- Struktur ini juga dapat meningkatkan efisiensi dalam reuse model, pembelajaran multitugas, dan penggabungan model
Arah riset berikutnya
- Perbedaan subruang universal antar arsitektur dan kemungkinan optimisasi geometrisnya masih menjadi persoalan terbuka
- Jika semua jaringan berkumpul pada subruang yang sama, kurangnya keberagaman akibat berbagi bias dan mode kegagalan dapat menjadi bottleneck baru
- Riset selanjutnya perlu mengembangkan cara untuk secara sengaja menyebarkan konvergensi tersebut
Ringkasan kontribusi utama
- Membuktikan secara empiris adanya subruang universal berdimensi rendah dalam ruang parameter jaringan deep learning
- Mengajukan metode untuk mempelajari subruang bersama aproksimatif dari beragam kumpulan tugas
- Memverifikasi bahwa subruang yang dipelajari memungkinkan adaptasi efisien ke tugas baru dengan sedikit parameter
- Menunjukkan potensi pemanfaatannya untuk kompresi model, pembelajaran dan inferensi cepat, serta penskalaan yang efisien
Belum ada komentar.