Hipotesis Subruang Bobot Universal
(arxiv.org)- Berbagai model deep learning terbukti melalui eksperimen skala besar tetap berkumpul pada subruang parameter berdimensi rendah yang sama, meskipun dilatih dengan data dan nilai awal yang berbeda
- Hasil analisis spektral terhadap lebih dari 1.100 model (500 Mistral-7B LoRA, 500 Vision Transformer, 50 LLaMA-8B, dan lainnya) menunjukkan bahwa sebagian besar varians terkonsentrasi pada sejumlah kecil arah komponen utama
- Subruang universal (Universal Subspace) ini terbentuk sesuai arsitektur model dan berulang muncul terlepas dari data maupun inisialisasi
- Struktur ini memiliki potensi besar untuk kompresi model, pembelajaran hemat parameter, penggabungan model, dan inferensi cepat
- Riset ini memberi petunjuk baru untuk memahami struktur intrinsik jaringan saraf dan kemampuan generalisasi, serta dapat menjadi landasan penting bagi perancangan algoritme pembelajaran yang efisien di masa depan
Penemuan subruang universal
- Diamati bahwa jaringan deep learning yang dilatih dengan beragam dataset, inisialisasi, dan hyperparameter berkumpul pada subruang berdimensi rendah yang sama
- Fenomena ini muncul sebagai struktur low-rank yang serupa menurut arsitektur dan lapisan
- Bahkan ketika data pelatihan atau fungsi loss berbeda, kecenderungan struktural yang sama tetap terlihat
- Hasil analisis spektral menunjukkan bahwa ruang bobot tiap tugas tampak berbeda, tetapi sebenarnya merupakan bagian dari ruang berdimensi rendah yang dibagikan bersama
- Temuan ini diajukan sebagai dasar untuk menjelaskan mengapa model yang overfit tetap bisa melakukan generalisasi, mengapa inisialisasi yang berbeda tetap berkumpul pada representasi serupa, dan mengapa fine-tuning hemat parameter berhasil
Eksperimen dan analisis skala besar
- Riset ini menganalisis lebih dari 1.100 model, termasuk 500 adapter Mistral-7B LoRA, 500 Vision Transformer, dan 50 model LLaMA3-8B
- Setiap model dilatih dengan dataset dan kondisi inisialisasi yang berbeda
- Hasil analisis komponen utama (PCA) menunjukkan bahwa hanya sedikit komponen utama yang menjelaskan sebagian besar varians, yang mengindikasikan adanya subruang low-rank bersama
- Secara khusus, bahkan 500 model ViT yang diinisialisasi secara acak pun berkumpul pada subruang berdimensi rendah yang sama, yang ditafsirkan sebagai sifat mendasar jaringan saraf
Pemodelan teoretis dan formalisasi matematis
- Riset ini memodelkan prediktor sebagai elemen dalam ruang Hilbert (Hilbert space), lalu menganalisis syarat pemulihan subruang bersama di antara berbagai tugas
- Dari prediktor tiap tugas ( f_t^* ), didefinisikan operator momen orde dua bersama S, dan dibuktikan bahwa operator aproksimasi ( \tilde{S} ) dari prediktor terlatih ( \hat{f_t} ) berkonvergensi ke S
- Theorem 2.5 menunjukkan bahwa subruang yang dipelajari berkonvergensi ke subruang bersama yang sebenarnya, dengan laju konvergensi ditentukan oleh jumlah tugas (T) dan akurasi estimasi tiap tugas (η)
- Semakin besar jarak antar nilai eigen (γₖ), semakin stabil pemulihan subruangnya
Potensi aplikasi dan dampak
- Dengan memanfaatkan subruang bersama, aplikasi berikut dimungkinkan
- Kompresi model dengan menyimpan hanya koefisien subruang alih-alih seluruh bobot
- Adaptasi cepat ke tugas baru di dalam subruang yang telah dipelajari
- Memberikan wawasan teoretis tentang batas generalisasi dan lanskap optimisasi
- Mengurangi biaya komputasi pelatihan dan inferensi, sehingga berpotensi menurunkan emisi karbon
- Struktur ini juga dapat meningkatkan efisiensi dalam reuse model, pembelajaran multitugas, dan penggabungan model
Arah riset berikutnya
- Perbedaan subruang universal antar arsitektur dan kemungkinan optimisasi geometrisnya masih menjadi persoalan terbuka
- Jika semua jaringan berkumpul pada subruang yang sama, kurangnya keberagaman akibat berbagi bias dan mode kegagalan dapat menjadi bottleneck baru
- Riset selanjutnya perlu mengembangkan cara untuk secara sengaja menyebarkan konvergensi tersebut
Ringkasan kontribusi utama
- Membuktikan secara empiris adanya subruang universal berdimensi rendah dalam ruang parameter jaringan deep learning
- Mengajukan metode untuk mempelajari subruang bersama aproksimatif dari beragam kumpulan tugas
- Memverifikasi bahwa subruang yang dipelajari memungkinkan adaptasi efisien ke tugas baru dengan sedikit parameter
- Menunjukkan potensi pemanfaatannya untuk kompresi model, pembelajaran dan inferensi cepat, serta penskalaan yang efisien
1 komentar
Komentar Hacker News
Ungkapan “500 Vision Transformers” terasa membingungkan
Sebenarnya yang dimaksud adalah 500 versi yang di-fine-tune dari model dasar yang sama
Model-model ini diunduh dari akun pengguna anonim di Hugging Face, dan istilah “universal” pada praktiknya hanya berlaku untuk satu model pra-pelatihan
Tidak mengejutkan jika model-model yang di-fine-tune seperti LoRA saling mirip
Sebagai catatan, salah satu model yang dikutip dalam makalah, CheXpert-ViT-U-MultiClass, menampilkan peringatan malware di Hugging Face
Awalnya saya bingung karena mengira mereka menemukan subruang bersama di antara arsitektur model yang berbeda, tetapi ternyata yang dibahas adalah stabilitas dalam kelas model yang sama
Namun pada akhirnya ini terasa hanya sebatas konfirmasi atas hal yang sudah jelas, yaitu bahwa fungsi loss memiliki titik minimum yang terdefinisi dengan baik, jadi nama “hipotesis subruang bobot universal” terasa agak berlebihan
Memang tidak sepraktis LoRA untuk saat ini, tetapi ada potensi untuk riset lanjutan
Jika di-fine-tune pada 500 dataset, sekilas tampak seperti akan membentuk ruang 500 dimensi, tetapi kenyataannya justru konvergen ke subruang sekitar 40 dimensi
Artinya, bobot hasil fine-tuning itu bisa dikompresi menjadi 40 bilangan riil
Mungkin suatu hari ukuran model di Hugging Face akan ditampilkan dalam satuan “160 byte”
Meski begitu, vektor basis ini sendiri tetap sebesar ukuran model, dan perlu diasumsikan bahwa dimensinya tidak bertambah meskipun jumlah dataset meningkat
Disayangkan penulis memakai model acak, tetapi semoga riset ini mengarah ke studi lanjutan yang melatih model besar dari nol
Selain itu, saya pikir makalah ini juga menganalisis model yang dilatih dari awal
Menurut saya bagian terpenting dari makalah ini adalah dua kalimat berikut
Pertama, memproyeksikan bobot 5 model ViT baru ke subruang universal 16 dimensi tidak menurunkan akurasi
Kedua, 500 model ViT dapat digantikan oleh satu model subruang universal, dan penggunaan memorinya turun 100 kali lipat
Artinya, pada 50 LLaMA3-8B, 177 GPT-2, dan 8 model Flan-T5, mereka menemukan struktur bersama, dan performanya tetap terjaga meskipun itu digunakan menggantikan model asli
Analogi sederhananya, ini seperti menemukan dictionary bzip2 yang bisa mengompresi semua file hingga 99%
Isinya tentang bagaimana model-model berkonvergensi ke ruang yang sama hingga transformasi linear
Misalnya, encoder siamese dengan loss MSE akan konvergen ke ruang laten yang sama bahkan tanpa decoder
Jadi Transformer yang dilatih pada data serupa kemungkinan besar juga mencapai ruang yang sama pada tingkat transformasi linear
Dalam konteks ini, hasil kali ini tidak terlalu mengejutkan, dan menurut saya bukti matematis seperti di makalah ini justru lebih penting
Misalnya, apakah subhimpunan bobot universal ini bisa dipakai untuk menginisialisasi model baru, dan apakah hal ini hanya berlaku untuk arsitektur tertentu
Bisa saja ada bug di kode atau itu hanya nilai yang dipilih secara arbitrer
Saya merasa makalah ini terlalu menjual narasi “universalitas”
Dalam kasus CNN, filter yang berkonvergensi ke bentuk Laplacian/Gabor terjadi karena bias induktif yang kuat
Transformer tidak memiliki batasan lokalitas seperti itu, sehingga subruangnya hanya bisa ditemukan lewat inisialisasi bersama (fine-tuning)
Pada akhirnya, “universalitas” ini bukan sifat esensial dari pembelajaran, melainkan hasil dari batasan struktural + stabilitas pra-pelatihan
Pendekatan ini tampak jauh lebih unggul daripada LoRA, dan sepertinya juga bisa dipakai untuk meningkatkan kecepatan inferensi
Bisa jadi model besar sudah memakainya secara internal
Intinya, mereka menemukan subhimpunan parameter yang berperan dalam transfer kemampuan ke tugas baru
Ini tidak berlaku untuk tugas yang benar-benar baru, tetapi efektif dalam domain yang sama
Seperti analogi GPT 5.1, ini mirip basis ekspresi untuk mengatur “ekspresi wajah” dalam rigging karakter 3D
Pendapatnya, jumlah tugas yang mungkin dalam hukum fisika itu terbatas, dan kebanyakan tidak bermakna
Konsep “subruang universal” yang dijelaskan makalah ini terasa kurang jelas
Karena perbandingan hanya dilakukan dalam keluarga model yang sama, tidak ada subruang bersama antara model dengan arsitektur berbeda seperti ViT dan GPT2
Hasil PCA yang menurun dalam bentuk logaritmik adalah fenomena yang wajar
Selain itu, dalam perkalian matriks, hasilnya bisa dipulihkan meskipun baris/kolom ditukar, sehingga model yang dilatih sepenuhnya secara independen tidak mungkin berbagi arah subruang yang sama
Jika model secara alami berkonvergensi ke ruang berdimensi rendah, kita bisa memulai pembelajaran langsung di ruang itu dan secara drastis mempercepat pelatihan
Transformer kemungkinan besar juga bekerja dengan prinsip serupa
Secara teori, diperlukan bukti matematis seperti di makalah ini
Mengesankan bahwa mereka memperoleh hasil seperti ini dengan sumber daya yang jauh lebih sedikit dibanding OpenAI atau Google
Saya jadi berpikir bagaimana kalau struktur seperti ini dikembangkan dengan algoritma genetika (GA)
Soalnya setiap kali topiknya jaringan saraf, saya selalu teringat GA
Crossover dan mutation terasa intuitif, tetapi backpropagation masih terasa sulit dipahami
Pendekatannya adalah memecah matriks bobot menjadi pola spektral lalu mencari solusi di ruang terkompresi
Model besar yang sudah ada juga tampaknya bisa dienkode dalam bentuk terkompresi sebagai titik awal mutasi
Jika pendekatan ini berkembang, mungkin kita bisa menemukan mekanisme baru secara evolusioner
Tautan EvoLisa
Memang sangat berbeda dari pelatihan LLM, tetapi dalam beberapa hal memberi kesan yang mirip
Saya penasaran bagaimana hubungannya dengan “Platonic Representation Hypothesis”
Melihat bagaimana diskursus Platonik kembali populer akhir-akhir ini, rasanya ada semacam konvergensi menuju wawasan yang lebih mendasar
Struktur representasi yang dibagikan bisa menjadi kandidat kuat untuk kategori Platonik
Sepertinya ada pemetaan yang menarik di antara kedua konsep tersebut
Bisa dibilang itu memberikan bukti empiris yang mendukung hipotesis sebelumnya
Ada juga dugaan setengah bercanda bahwa “semua model pada dasarnya mungkin hanya versi fine-tuning dari LLaMA”
Para penulis mengklaim telah menemukan struktur low-rank bersama dengan menganalisis berbagai model low-rank fine-tune
Ini bergantung pada model dasar, dan mirip dengan bagaimana variasi genetik manusia dapat direpresentasikan oleh sejumlah kecil komponen utama
Pada akhirnya, fenomena ini mungkin muncul karena adanya asal-usul bersama (ancestry)