2 poin oleh GN⁺ 2025-12-11 | 1 komentar | Bagikan ke WhatsApp
  • Berbagai model deep learning terbukti melalui eksperimen skala besar tetap berkumpul pada subruang parameter berdimensi rendah yang sama, meskipun dilatih dengan data dan nilai awal yang berbeda
  • Hasil analisis spektral terhadap lebih dari 1.100 model (500 Mistral-7B LoRA, 500 Vision Transformer, 50 LLaMA-8B, dan lainnya) menunjukkan bahwa sebagian besar varians terkonsentrasi pada sejumlah kecil arah komponen utama
  • Subruang universal (Universal Subspace) ini terbentuk sesuai arsitektur model dan berulang muncul terlepas dari data maupun inisialisasi
  • Struktur ini memiliki potensi besar untuk kompresi model, pembelajaran hemat parameter, penggabungan model, dan inferensi cepat
  • Riset ini memberi petunjuk baru untuk memahami struktur intrinsik jaringan saraf dan kemampuan generalisasi, serta dapat menjadi landasan penting bagi perancangan algoritme pembelajaran yang efisien di masa depan

Penemuan subruang universal

  • Diamati bahwa jaringan deep learning yang dilatih dengan beragam dataset, inisialisasi, dan hyperparameter berkumpul pada subruang berdimensi rendah yang sama
    • Fenomena ini muncul sebagai struktur low-rank yang serupa menurut arsitektur dan lapisan
    • Bahkan ketika data pelatihan atau fungsi loss berbeda, kecenderungan struktural yang sama tetap terlihat
  • Hasil analisis spektral menunjukkan bahwa ruang bobot tiap tugas tampak berbeda, tetapi sebenarnya merupakan bagian dari ruang berdimensi rendah yang dibagikan bersama
  • Temuan ini diajukan sebagai dasar untuk menjelaskan mengapa model yang overfit tetap bisa melakukan generalisasi, mengapa inisialisasi yang berbeda tetap berkumpul pada representasi serupa, dan mengapa fine-tuning hemat parameter berhasil
Iklan

Eksperimen dan analisis skala besar

  • Riset ini menganalisis lebih dari 1.100 model, termasuk 500 adapter Mistral-7B LoRA, 500 Vision Transformer, dan 50 model LLaMA3-8B
    • Setiap model dilatih dengan dataset dan kondisi inisialisasi yang berbeda
  • Hasil analisis komponen utama (PCA) menunjukkan bahwa hanya sedikit komponen utama yang menjelaskan sebagian besar varians, yang mengindikasikan adanya subruang low-rank bersama
  • Secara khusus, bahkan 500 model ViT yang diinisialisasi secara acak pun berkumpul pada subruang berdimensi rendah yang sama, yang ditafsirkan sebagai sifat mendasar jaringan saraf

Pemodelan teoretis dan formalisasi matematis

  • Riset ini memodelkan prediktor sebagai elemen dalam ruang Hilbert (Hilbert space), lalu menganalisis syarat pemulihan subruang bersama di antara berbagai tugas
  • Dari prediktor tiap tugas ( f_t^* ), didefinisikan operator momen orde dua bersama S, dan dibuktikan bahwa operator aproksimasi ( \tilde{S} ) dari prediktor terlatih ( \hat{f_t} ) berkonvergensi ke S
  • Theorem 2.5 menunjukkan bahwa subruang yang dipelajari berkonvergensi ke subruang bersama yang sebenarnya, dengan laju konvergensi ditentukan oleh jumlah tugas (T) dan akurasi estimasi tiap tugas (η)
  • Semakin besar jarak antar nilai eigen (γₖ), semakin stabil pemulihan subruangnya

Potensi aplikasi dan dampak

  • Dengan memanfaatkan subruang bersama, aplikasi berikut dimungkinkan
    • Kompresi model dengan menyimpan hanya koefisien subruang alih-alih seluruh bobot
    • Adaptasi cepat ke tugas baru di dalam subruang yang telah dipelajari
    • Memberikan wawasan teoretis tentang batas generalisasi dan lanskap optimisasi
    • Mengurangi biaya komputasi pelatihan dan inferensi, sehingga berpotensi menurunkan emisi karbon
    Iklan
  • Struktur ini juga dapat meningkatkan efisiensi dalam reuse model, pembelajaran multitugas, dan penggabungan model

Arah riset berikutnya

  • Perbedaan subruang universal antar arsitektur dan kemungkinan optimisasi geometrisnya masih menjadi persoalan terbuka
  • Jika semua jaringan berkumpul pada subruang yang sama, kurangnya keberagaman akibat berbagi bias dan mode kegagalan dapat menjadi bottleneck baru
  • Riset selanjutnya perlu mengembangkan cara untuk secara sengaja menyebarkan konvergensi tersebut

Ringkasan kontribusi utama

  • Membuktikan secara empiris adanya subruang universal berdimensi rendah dalam ruang parameter jaringan deep learning
  • Mengajukan metode untuk mempelajari subruang bersama aproksimatif dari beragam kumpulan tugas
  • Memverifikasi bahwa subruang yang dipelajari memungkinkan adaptasi efisien ke tugas baru dengan sedikit parameter
  • Menunjukkan potensi pemanfaatannya untuk kompresi model, pembelajaran dan inferensi cepat, serta penskalaan yang efisien

1 komentar

 
GN⁺ 2025-12-11
Komentar Hacker News
  • Ungkapan “500 Vision Transformers” terasa membingungkan
    Sebenarnya yang dimaksud adalah 500 versi yang di-fine-tune dari model dasar yang sama
    Model-model ini diunduh dari akun pengguna anonim di Hugging Face, dan istilah “universal” pada praktiknya hanya berlaku untuk satu model pra-pelatihan
    Tidak mengejutkan jika model-model yang di-fine-tune seperti LoRA saling mirip
    Sebagai catatan, salah satu model yang dikutip dalam makalah, CheXpert-ViT-U-MultiClass, menampilkan peringatan malware di Hugging Face

    • Penjelasan ini membantu memperjelas maksud “subruang universal” yang disebut makalah
      Awalnya saya bingung karena mengira mereka menemukan subruang bersama di antara arsitektur model yang berbeda, tetapi ternyata yang dibahas adalah stabilitas dalam kelas model yang sama
      Namun pada akhirnya ini terasa hanya sebatas konfirmasi atas hal yang sudah jelas, yaitu bahwa fungsi loss memiliki titik minimum yang terdefinisi dengan baik, jadi nama “hipotesis subruang bobot universal” terasa agak berlebihan
    • Hasil fine-tuning sesuai ekspektasi, tetapi eksperimen ResNet yang dilatih dari awal (Figure 2, Section 3.2.1) terasa lebih menarik
      Memang tidak sepraktis LoRA untuk saat ini, tetapi ada potensi untuk riset lanjutan
    • Setiap fine-tuning menggeser bobot model dasar ke arah tertentu
      Jika di-fine-tune pada 500 dataset, sekilas tampak seperti akan membentuk ruang 500 dimensi, tetapi kenyataannya justru konvergen ke subruang sekitar 40 dimensi
      Artinya, bobot hasil fine-tuning itu bisa dikompresi menjadi 40 bilangan riil
      Mungkin suatu hari ukuran model di Hugging Face akan ditampilkan dalam satuan “160 byte”
      Meski begitu, vektor basis ini sendiri tetap sebesar ukuran model, dan perlu diasumsikan bahwa dimensinya tidak bertambah meskipun jumlah dataset meningkat
      Disayangkan penulis memakai model acak, tetapi semoga riset ini mengarah ke studi lanjutan yang melatih model besar dari nol
    • Saya heran kenapa model yang dilatih pada data berbeda dianggap mirip
      Selain itu, saya pikir makalah ini juga menganalisis model yang dilatih dari awal
    • Mereka membahas model Mistral dan LLaMA, tetapi istilah “universal” tetap terasa berlebihan
  • Menurut saya bagian terpenting dari makalah ini adalah dua kalimat berikut
    Pertama, memproyeksikan bobot 5 model ViT baru ke subruang universal 16 dimensi tidak menurunkan akurasi
    Kedua, 500 model ViT dapat digantikan oleh satu model subruang universal, dan penggunaan memorinya turun 100 kali lipat
    Artinya, pada 50 LLaMA3-8B, 177 GPT-2, dan 8 model Flan-T5, mereka menemukan struktur bersama, dan performanya tetap terjaga meskipun itu digunakan menggantikan model asli
    Analogi sederhananya, ini seperti menemukan dictionary bzip2 yang bisa mengompresi semua file hingga 99%

    • Latar belakang teoretis yang relevan ada pada makalah arXiv:2007.00810
      Isinya tentang bagaimana model-model berkonvergensi ke ruang yang sama hingga transformasi linear
      Misalnya, encoder siamese dengan loss MSE akan konvergen ke ruang laten yang sama bahkan tanpa decoder
      Jadi Transformer yang dilatih pada data serupa kemungkinan besar juga mencapai ruang yang sama pada tingkat transformasi linear
      Dalam konteks ini, hasil kali ini tidak terlalu mengejutkan, dan menurut saya bukti matematis seperti di makalah ini justru lebih penting
    • Saya penasaran bagaimana “commonality” ini bisa dimanfaatkan dalam praktik
      Misalnya, apakah subhimpunan bobot universal ini bisa dipakai untuk menginisialisasi model baru, dan apakah hal ini hanya berlaku untuk arsitektur tertentu
    • Jika model secara alami menempati subruang spektral bersama, biaya pelatihan dan kebutuhan penyimpanan bisa berkurang drastis
    • Klaim bahwa “16 dimensi saja sudah cukup” cukup mengesankan
    • Namun angka 16 terasa terlalu rapi sehingga menimbulkan kecurigaan
      Bisa saja ada bug di kode atau itu hanya nilai yang dipilih secara arbitrer
  • Saya merasa makalah ini terlalu menjual narasi “universalitas”
    Dalam kasus CNN, filter yang berkonvergensi ke bentuk Laplacian/Gabor terjadi karena bias induktif yang kuat
    Transformer tidak memiliki batasan lokalitas seperti itu, sehingga subruangnya hanya bisa ditemukan lewat inisialisasi bersama (fine-tuning)
    Pada akhirnya, “universalitas” ini bukan sifat esensial dari pembelajaran, melainkan hasil dari batasan struktural + stabilitas pra-pelatihan

    • Meski begitu, keberadaan arah riset seperti ini sendiri sudah mengejutkan dan menarik
  • Pendekatan ini tampak jauh lebih unggul daripada LoRA, dan sepertinya juga bisa dipakai untuk meningkatkan kecepatan inferensi
    Bisa jadi model besar sudah memakainya secara internal
    Intinya, mereka menemukan subhimpunan parameter yang berperan dalam transfer kemampuan ke tugas baru
    Ini tidak berlaku untuk tugas yang benar-benar baru, tetapi efektif dalam domain yang sama
    Seperti analogi GPT 5.1, ini mirip basis ekspresi untuk mengatur “ekspresi wajah” dalam rigging karakter 3D

    • Ada juga pertanyaan filosofis, “apakah tugas yang benar-benar baru itu ada?”
      Pendapatnya, jumlah tugas yang mungkin dalam hukum fisika itu terbatas, dan kebanyakan tidak bermakna
    • Dalam praktiknya, tampaknya ini juga bekerja sampai batas tertentu untuk tugas baru
  • Konsep “subruang universal” yang dijelaskan makalah ini terasa kurang jelas
    Karena perbandingan hanya dilakukan dalam keluarga model yang sama, tidak ada subruang bersama antara model dengan arsitektur berbeda seperti ViT dan GPT2
    Hasil PCA yang menurun dalam bentuk logaritmik adalah fenomena yang wajar
    Selain itu, dalam perkalian matriks, hasilnya bisa dipulihkan meskipun baris/kolom ditukar, sehingga model yang dilatih sepenuhnya secara independen tidak mungkin berbagi arah subruang yang sama

    • Pada akhirnya ini lebih dekat ke teknik kompresi model, bukan “universalitas” dalam makna filosofis
  • Jika model secara alami berkonvergensi ke ruang berdimensi rendah, kita bisa memulai pembelajaran langsung di ruang itu dan secara drastis mempercepat pelatihan

    • Seperti encoder siamese, jika memakai fungsi loss yang sama, model akan mencapai ruang laten yang sama hingga transformasi linear
      Transformer kemungkinan besar juga bekerja dengan prinsip serupa
      Secara teori, diperlukan bukti matematis seperti di makalah ini
    • Menarik bahwa riset seperti ini datang dari JHU
      Mengesankan bahwa mereka memperoleh hasil seperti ini dengan sumber daya yang jauh lebih sedikit dibanding OpenAI atau Google
    • Namun jika ruang bersama seperti ini memang ada, mungkin juga berarti ada batas pada daya representasi model
    • Atau mungkin sifat subruang itu sendiri bisa dijadikan bias induktif untuk merancang arsitektur baru
  • Saya jadi berpikir bagaimana kalau struktur seperti ini dikembangkan dengan algoritma genetika (GA)
    Soalnya setiap kali topiknya jaringan saraf, saya selalu teringat GA

    • Saya punya ikatan emosional dengan GA karena dulu membaca Artificial Life karya Levy saat kecil
      Crossover dan mutation terasa intuitif, tetapi backpropagation masih terasa sulit dipahami
    • Belakangan saya sedang bereksperimen dengan GA berbasis indirect encoding, dan makalah ini terasa mendukung arah tersebut
      Pendekatannya adalah memecah matriks bobot menjadi pola spektral lalu mencari solusi di ruang terkompresi
      Model besar yang sudah ada juga tampaknya bisa dienkode dalam bentuk terkompresi sebagai titik awal mutasi
      Jika pendekatan ini berkembang, mungkin kita bisa menemukan mekanisme baru secara evolusioner
    • Dengan adanya tujuan seperti ini, sekarang tampaknya saat yang tepat untuk kembali memanfaatkan GA atau metode non-pembelajaran lainnya
    • Dulu saya sangat terobsesi dengan proyek EvoLisa
      Tautan EvoLisa
      Memang sangat berbeda dari pelatihan LLM, tetapi dalam beberapa hal memberi kesan yang mirip
    • Saya sendiri lebih tertarik pada vector quantization daripada GA
  • Saya penasaran bagaimana hubungannya dengan “Platonic Representation Hypothesis”

    • Semoga ada orang yang lebih pintar dari saya yang menjawab
      Melihat bagaimana diskursus Platonik kembali populer akhir-akhir ini, rasanya ada semacam konvergensi menuju wawasan yang lebih mendasar
    • Kedua hipotesis itu berkaitan erat
      Struktur representasi yang dibagikan bisa menjadi kandidat kuat untuk kategori Platonik
      Sepertinya ada pemetaan yang menarik di antara kedua konsep tersebut
    • Makalah arXiv:2405.07987 berada di jalur lanjutan yang sama
      Bisa dibilang itu memberikan bukti empiris yang mendukung hipotesis sebelumnya
  • Ada juga dugaan setengah bercanda bahwa “semua model pada dasarnya mungkin hanya versi fine-tuning dari LLaMA”

  • Para penulis mengklaim telah menemukan struktur low-rank bersama dengan menganalisis berbagai model low-rank fine-tune
    Ini bergantung pada model dasar, dan mirip dengan bagaimana variasi genetik manusia dapat direpresentasikan oleh sejumlah kecil komponen utama
    Pada akhirnya, fenomena ini mungkin muncul karena adanya asal-usul bersama (ancestry)