Hipotesis Subruang Bobot Universal

(arxiv.org)

2 poin oleh GN⁺ 2025-12-11 | Belum ada komentar. | Bagikan ke WhatsApp

Berbagai model deep learning terbukti melalui eksperimen skala besar tetap berkumpul pada subruang parameter berdimensi rendah yang sama, meskipun dilatih dengan data dan nilai awal yang berbeda
Hasil analisis spektral terhadap lebih dari 1.100 model (500 Mistral-7B LoRA, 500 Vision Transformer, 50 LLaMA-8B, dan lainnya) menunjukkan bahwa sebagian besar varians terkonsentrasi pada sejumlah kecil arah komponen utama
Subruang universal (Universal Subspace) ini terbentuk sesuai arsitektur model dan berulang muncul terlepas dari data maupun inisialisasi
Struktur ini memiliki potensi besar untuk kompresi model, pembelajaran hemat parameter, penggabungan model, dan inferensi cepat
Riset ini memberi petunjuk baru untuk memahami struktur intrinsik jaringan saraf dan kemampuan generalisasi, serta dapat menjadi landasan penting bagi perancangan algoritme pembelajaran yang efisien di masa depan

Penemuan subruang universal

Diamati bahwa jaringan deep learning yang dilatih dengan beragam dataset, inisialisasi, dan hyperparameter berkumpul pada subruang berdimensi rendah yang sama
- Fenomena ini muncul sebagai struktur low-rank yang serupa menurut arsitektur dan lapisan
- Bahkan ketika data pelatihan atau fungsi loss berbeda, kecenderungan struktural yang sama tetap terlihat
Hasil analisis spektral menunjukkan bahwa ruang bobot tiap tugas tampak berbeda, tetapi sebenarnya merupakan bagian dari ruang berdimensi rendah yang dibagikan bersama
Temuan ini diajukan sebagai dasar untuk menjelaskan mengapa model yang overfit tetap bisa melakukan generalisasi, mengapa inisialisasi yang berbeda tetap berkumpul pada representasi serupa, dan mengapa fine-tuning hemat parameter berhasil

Riset ini menganalisis lebih dari 1.100 model, termasuk 500 adapter Mistral-7B LoRA, 500 Vision Transformer, dan 50 model LLaMA3-8B
- Setiap model dilatih dengan dataset dan kondisi inisialisasi yang berbeda
Hasil analisis komponen utama (PCA) menunjukkan bahwa hanya sedikit komponen utama yang menjelaskan sebagian besar varians, yang mengindikasikan adanya subruang low-rank bersama
Secara khusus, bahkan 500 model ViT yang diinisialisasi secara acak pun berkumpul pada subruang berdimensi rendah yang sama, yang ditafsirkan sebagai sifat mendasar jaringan saraf

Riset ini memodelkan prediktor sebagai elemen dalam ruang Hilbert (Hilbert space), lalu menganalisis syarat pemulihan subruang bersama di antara berbagai tugas
Dari prediktor tiap tugas ( f_t^* ), didefinisikan operator momen orde dua bersama S, dan dibuktikan bahwa operator aproksimasi ( \tilde{S} ) dari prediktor terlatih ( \hat{f_t} ) berkonvergensi ke S
Theorem 2.5 menunjukkan bahwa subruang yang dipelajari berkonvergensi ke subruang bersama yang sebenarnya, dengan laju konvergensi ditentukan oleh jumlah tugas (T) dan akurasi estimasi tiap tugas (η)
Semakin besar jarak antar nilai eigen (γₖ), semakin stabil pemulihan subruangnya

Dengan memanfaatkan subruang bersama, aplikasi berikut dimungkinkan
- Kompresi model dengan menyimpan hanya koefisien subruang alih-alih seluruh bobot
- Adaptasi cepat ke tugas baru di dalam subruang yang telah dipelajari
- Memberikan wawasan teoretis tentang batas generalisasi dan lanskap optimisasi
- Mengurangi biaya komputasi pelatihan dan inferensi, sehingga berpotensi menurunkan emisi karbon
Struktur ini juga dapat meningkatkan efisiensi dalam reuse model, pembelajaran multitugas, dan penggabungan model

Perbedaan subruang universal antar arsitektur dan kemungkinan optimisasi geometrisnya masih menjadi persoalan terbuka
Jika semua jaringan berkumpul pada subruang yang sama, kurangnya keberagaman akibat berbagi bias dan mode kegagalan dapat menjadi bottleneck baru
Riset selanjutnya perlu mengembangkan cara untuk secara sengaja menyebarkan konvergensi tersebut

Membuktikan secara empiris adanya subruang universal berdimensi rendah dalam ruang parameter jaringan deep learning
Mengajukan metode untuk mempelajari subruang bersama aproksimatif dari beragam kumpulan tugas
Memverifikasi bahwa subruang yang dipelajari memungkinkan adaptasi efisien ke tugas baru dengan sedikit parameter
Menunjukkan potensi pemanfaatannya untuk kompresi model, pembelajaran dan inferensi cepat, serta penskalaan yang efisien