- mechanics proses pembelajaran deep learning memperlakukan pelatihan jaringan saraf sebagai dinamika yang dibentuk oleh interaksi antara parameter, data, tugas, dan aturan pembelajaran, dan mulai mapan dalam bentuk teori ilmiah yang terpadu
- Tantangan utamanya bukan pada ketidakjelasan melainkan pada kompleksitas; jaringan saraf tidak dapat dijelaskan secara memadai hanya dengan teori klasik yang sudah ada karena memiliki struktur non-konveks, overparameterized, dan mempelajari representasi internal yang terstruktur
- Keteraturan berulang terungkap di berbagai poros seperti pengaturan yang dapat dianalisis, limit lebar·kedalaman tak hingga, hukum empiris yang sederhana, teori hyperparameter, dan fenomena universal, sehingga fondasi mechanics pembelajaran terus terbentuk
- Hasil seperti deep linear network, NTK, mean-field, dan pembedaan lazy-rich memungkinkan dinamika pembelajaran, generalisasi, feature learning, dan scaling law dibahas secara kuantitatif
- Teori seperti ini penting untuk memberi dasar yang lebih dapat diprediksi dan dikendalikan bagi desain model, optimisasi, pemilihan hyperparameter, hingga AI safety dan mechanistic interpretability
Pendahuluan
- Deep learning sangat kuat, tetapi kerangka ilmiah yang secara terpadu menjelaskan cara kerja internalnya masih kurang
- Jaringan saraf menunjukkan performa supermanusia di berbagai tugas, tetapi teori terpadu tentang mengapa ia bekerja demikian dan bagaimana performa tersebut muncul masih belum ada
- Cara pelatihan di dunia nyata juga masih sangat bergantung pada trial and error ketimbang first principles, dan teori masih berperan terbatas dalam praktik deep learning sehari-hari
- Memasuki era large language model dan diffusion model, misterinya makin dalam, tetapi teori ilmiah deep learning sebenarnya mulai terbentuk, dan bentuknya lebih dekat dengan mechanics proses pembelajaran
- Fokus teori deep learning telah berubah seiring waktu
- Pada awalnya, fokus utamanya adalah fungsi apa yang dapat direpresentasikan model dan bagaimana model mempelajarinya dari data
- Setelah itu, fokus bergeser ke kapan model dapat melakukan generalisasi pada sampel berhingga, sehingga classical learning theory, computational learning theory, teori PAC, dan teori optimisasi klasik berkembang
- Pada saat yang sama, tradisi statistical physics of machine learning yang membahas perilaku rata-rata model sederhana juga ikut terbentuk
- Jaringan multilapis, backpropagation, serta perluasan besar-besaran data dan sumber daya komputasi memperlihatkan batas teori lama
- Jaringan saraf memiliki struktur non-konveks dan overparameterized, berbeda dari model sederhana dan konveks yang ditangani dengan baik oleh teori klasik
- Melampaui sekadar error pelatihan yang rendah, jaringan juga mempelajari representasi internal yang terstruktur dan memperlihatkan keteraturan lintas tugas dan skala
- Perubahan ini menggeser teori deep learning dari tahap menanyakan secara matematis apa yang mungkin, ke tahap ilmiah yang mendeskripsikan dan memprediksi perilaku sistem empiris yang kompleks
- Karena itu dibutuhkan pendekatan ilmiah yang mampu merangkul observasi empiris, mencari prinsip terpadu, dan mengidentifikasi pola yang muncul berulang kali
- Jalur ke depan juga tampak lebih mirip proses pematangan sebuah bidang sains daripada perkembangan murni cabang matematika
Apa itu learning mechanics
- Pembelajaran jaringan saraf dapat dipandang serupa dengan mechanics yang menjelaskan benda bergerak dalam ruang dan waktu
- Seperti benda yang bergerak terus-menerus di ruang fisik karena gaya, model bergerak di parameter space melalui update yang bersifat diskret
- Seperti gaya dalam fisika muncul dari interaksi antar komponen sistem, dalam deep learning pembelajaran juga dibentuk oleh interaksi antara parameter, dataset, tugas, dan aturan pembelajaran
- Ada pula hubungan korespondensi antara medan dalam fisika dan gradient dalam deep learning
- Seperti sistem fisik menetap pada titik minimum lokal dari potential yang ditentukan oleh interaksi internal dan kendala eksternal, jaringan saraf juga konvergen ke titik minimum lokal pada loss landscape yang dibentuk oleh arsitektur dan data pelatihan
- Analogi ini bukan sekadar retorika, tetapi juga selaras dengan arus riset yang sedang berjalan
- Seperti berbagai cabang mechanics memanfaatkan pengaturan yang dapat dianalisis, limit yang disederhanakan, statistik ringkasan, analisis parameter sistem, dan fenomena universal, mechanics pembelajaran juga memakai alat yang sama
- Khususnya seperti continuum mechanics dan statistical mechanics yang menangani banyak elemen yang saling berinteraksi, deep learning juga lebih efektif dijelaskan lewat statistik pada tingkat yang diperbesar ketimbang elemen individual satu per satu
- Program riset ini dapat dihimpun dengan nama learning mechanics
7 syarat yang dibutuhkan learning mechanics
-
Fundamentalitas
- Pelatihan jaringan saraf harus dijabarkan secara logis dengan bertolak dari first principles
- Pada tahap perantara, asumsi tentang bobot, dinamika, dan performa boleh dipakai sebagai alat, tetapi pada akhirnya hal-hal itu juga harus dijelaskan lewat first principles
-
Kematematisan
- Harus dihasilkan pernyataan kuantitatif yang tidak ambigu tentang sifat-sifat penting jaringan saraf
- Deskripsi kualitatif saja tidak cukup untuk membentuk mechanics
-
Dapat diprediksi
- Klaim harus dapat diverifikasi melalui pengukuran empiris yang sederhana dan dapat diulang
- Karena kontrol eksperimen atas sistem ini sangat baik, kemajuan penting harus dapat diverifikasi dengan jelas melalui eksperimen
-
Komprehensif
- Proses pelatihan, representasi internal, dan bobot akhir harus dihubungkan dalam satu gambaran
- Alih-alih mencoba memuat semua detail, perlu dipilih resolusi yang tepat yang memberi wawasan meski harus mengorbankan sebagian detail
-
Intuitif
- Wawasan yang sederhana dan illuminating harus diprioritaskan di atas kompleksitas teknis
- Teori itu harus memberi kepuasan karena mampu menyingkap misteri deep learning
-
Kegunaan
- Seperti fisika menjadi dasar bagi bidang rekayasa lain, ia harus menjadi fondasi ilmiah bagi deep learning terapan
- Ini mencakup tujuan konkret seperti mengurangi hyperparameter tuning, alat prediksi untuk dataset design, dan dasar yang ketat bagi AI safety
-
Kerendahan hati
- Harus jelas apa yang bisa dijelaskan dengan baik dan apa yang tidak bisa dijelaskan
- Bahkan mechanics yang dapat diterapkan pada deep learning realistis pun bisa gagal pada kasus-kasus khusus yang kecil dan dirancang secara manual, dan ini dipandang sebagai harga untuk memperoleh gambaran sederhana di wilayah yang diminati
Mengapa learning mechanics penting
-
Alasan ilmiah
- Keberhasilan rekayasa jaringan saraf besar menunjukkan bahwa ia memanfaatkan prinsip-prinsip mendalam tentang pembelajaran dan representasi yang masih belum dipahami
- Sebagai preseden teknologi yang datang lebih dulu daripada teori, diajukan contoh steam engine dan thermodynamics, serta pesawat terbang dan aerodynamic theory
- Prinsip pembelajaran jaringan saraf buatan juga dapat memberi terang pada pemahaman biological intelligence, yang dapat berimplikasi bagi neuroscience dan cognitive science
-
Alasan praktis
- Teori deep learning yang matang dapat menuntun desain model, optimisasi, scaling, dan deployment dengan prinsip yang lebih andal
- Di sejumlah area, teori sudah mulai berperan
- empirical scaling laws
- resep matematis untuk scaling hyperparameter
- optimizer dan metode data attribution yang dirancang dengan motivasi teoretis
- Teori yang lebih dalam dan lebih lengkap dapat memberi lebih banyak panduan seperti ini, serta membuatnya lebih tajam dan lebih prediktif
-
Alasan terkait keamanan
- Untuk mendeskripsikan, mengarakterisasi, dan mengendalikan sistem AI yang semakin kuat, kita harus dapat memperjelas variabel, mekanisme, dan prinsip organisasinya
- Sulit mengatur teknologi yang bahkan tidak bisa dideskripsikan dengan jelas, dan fundamental theory dapat memberi kejernihan yang dibutuhkan untuk reliability, oversight, dan control
- Secara khusus, diajukan kemungkinan bahwa ini dapat berkontribusi pada AI safety dengan cara yang mendukung mechanistic interpretability
Bukti bahwa mechanics pembelajaran sedang muncul
- Komponen inti deep learning bersifat eksplisit dan dapat diukur
- Arsitektur diberikan sebagai jaringan saraf f(x; θ) yang didefinisikan sebagai komposisi transformasi linear dan non-linear yang sederhana
- Data diberikan sebagai himpunan sampel D = {(xi, yi)} yang berasal dari distribusi pembangkitan data yang tidak diketahui
- Tugas didefinisikan sebagai fungsi objektif L(θ) yang mengukur kinerja di atas dataset
- Aturan pembelajaran dideskripsikan dengan pembaruan berbasis gradient seperti
θ(t+1) = θ(t) −η∇L(θ(t)), beserta inisialisasi dan hyperparameter optimisasi
- Hampir tidak ada yang tersembunyi dalam proses pembelajaran
- Tidak seperti banyak sistem kompleks lainnya, deep learning secara langsung menampilkan equations of motion yang mengendalikan dinamika
- Semua weight, activation, gradient, dan loss dapat dicatat, dan dari sana statistik apa pun juga dapat dibuat
- Perancangan eksperimen, reproduksi, dan verifikasi mudah dilakukan, sehingga menguntungkan untuk menemukan keteraturan empiris dan menguji prediksi teori secara ketat
- Meski demikian, tantangan utamanya bukan ketidakjelasan melainkan kompleksitas
- Interaksi antara architecture, data, task, dan learning rule menghasilkan dinamika pembelajaran yang non-linear, saling terkopel, dan berdimensi tinggi
- Sensitif terhadap pemilihan hyperparameter, dan distribusi data itu sendiri juga sulit dikarakterisasi secara sederhana
- Meski begitu, di bawah kompleksitas ini tersembunyi keteraturan, dan lima pengamatan diajukan untuk mendukungnya
-
Pengaturan yang dapat diselesaikan secara analitis
-
Limit yang memberi wawasan
-
Hukum empiris sederhana
-
Teori hyperparameter
Pengaturan yang dapat diselesaikan secara analitis
- Dalam sistem yang kompleks, pemahaman ilmiah berkembang cepat ketika perhitungan kuantitatif dimungkinkan pada pengaturan yang disederhanakan tetapi tetap representatif
- Seperti harmonic oscillator atau hydrogen atom dalam fisika, model minimal dalam deep learning juga memberi intuisi saat melihat sistem yang lebih realistis
- Deep learning sangat cocok untuk pendekatan ini, dan telah ditemukan banyak pengaturan di mana dinamika pembelajaran disederhanakan dan besaran intinya dapat dihitung
-
Linearisasi terhadap data
- deep linear network menghilangkan non-linearitas sehingga menjadi linear terhadap input x, tetapi tetap sangat non-linear terhadap parameter θ
- Meski model seperti ini tampak sederhana, ia mempertahankan perilaku khas deep learning
- saddle-point-dominated loss landscape
- dinamika dengan phase transition yang jelas dan skala waktu yang terpisah
- edge-of-stability oscillation dalam gradient descent
- inductive bias yang sangat bergantung pada inisialisasi
- Analisis biasanya dilakukan di bawah gradient flow, yaitu limit waktu kontinu dari gradient descent, dan bila diberi asumsi penyederhanaan pada distribusi data dan inisialisasi, sistemnya dapat direduksi menjadi solusi eksak atau sistem dinamika berdimensi rendah
- Inti yang berulang kali muncul adalah greedy low-rank bias
- Pembelajaran memperoleh sebagian komponen tugas lebih dahulu daripada komponen lainnya
- Dalam hasil [Saxe et al. 2014], singular vector dari korelasi input-output dipelajari secara berurutan, dan mode dengan singular value yang lebih besar dipelajari lebih dulu
- Bias ini dikaitkan dengan kemampuannya membantu generalisasi dengan memisahkan signal dan noise
- Pada jaringan non-linear, ini juga mirip dengan fenomena bahwa fungsi sederhana dipelajari lebih dulu daripada fungsi yang kompleks
- Inisialisasi kecil, kedalaman yang lebih besar, mini-batch noise yang lebih kuat, dan ℓ2 regularization eksplisit diringkas sebagai faktor yang makin memperkuat greedy bias ini
-
Linearisasi terhadap parameter
- linearized network diperoleh dengan memotong suku non-linear dari ekspansi Taylor di sekitar parameter awal, sehingga tetap non-linear terhadap data x tetapi menjadi linear terhadap parameter θ
- Dalam pengaturan tertentu, model asli dapat didekati dengan baik oleh linearisasi ini sepanjang seluruh pelatihan, dan dalam kasus ini dinamika pembelajarannya pada dasarnya menjadi sama dengan regresi linear
- Perbedaannya adalah bahwa dinamika dikendalikan oleh neural tangent kernel, NTK, bukan Gram kernel
- Pada least squares dan gradient descent dengan step size kecil, prediktor akhirnya diberikan oleh kernel ridge regression menggunakan NTK, sehingga lebih mudah dianalisis
- Pengaturan ini memperlihatkan bagaimana arsitektur menentukan inductive bias melalui struktur NTK
- Jika struktur data masukan juga diperhitungkan, galat generalisasi yang diharapkan untuk fungsi target sebarang pun dapat diprediksi, dan hasil pada Figure 1 menunjukkan kecocokan yang baik antara prediksi semacam ini dan eksperimen
- Selain itu, double descent dan scaling laws juga dapat ditangkap
- Namun, realisme dan keterbatasannya juga jelas
- tidak dapat menangkap feature learning yang kuat pada neural network generik
- dapat menghasilkan prediksi yang terlalu pesimistis tentang kompleksitas sampel
- dengan mengubah pembelajaran menjadi masalah linear, pendekatan ini justru menghindari fenomena optimisasi non-konveks yang khas dalam deep learning
-
Melampaui linearisasi
- Salah satu front penting teori adalah membuat toy model yang benar-benar non-linear baik terhadap data maupun parameter menjadi dapat dianalisis
- Di sini pengaruh distribusi data menjadi jauh lebih kompleks, sehingga sulit membangun satu kerangka terpadu, tetapi kemajuan muncul dari berbagai arah
- Pada keluarga model single-index dan multi-index dengan input Gaussian dan target terstruktur, neural network yang sepenuhnya non-linear bekerja lebih baik dengan sampel yang lebih sedikit dibanding kernel method
- karena model ini belajar relevant feature dengan memanfaatkan struktur fungsi target
- Metode statistical physics juga memungkinkan perhitungan perilaku asimtotik eksak dari inferensi Bayes-optimal dan dinamika pembelajaran pada model seperti ini
- Pada jaringan saraf dua lapis dengan quadratic activation, asimtotik eksak, dinamika pelatihan, hingga scaling laws telah dapat dikarakterisasi
- Selain itu, berbagai fenomena non-linear lain juga telah dipisahkan untuk dianalisis
- fenomena jaringan homogeneous yang dilatih dengan logistic loss dan konvergen ke max-margin solution
- fenomena pada teacher-student model di mana dinamika pelatihan direduksi menjadi statistik ringkasan berdimensi rendah
- memorization pada associative memory model
- struktur algoritmik yang dipelajari pada modular arithmetic task
- model attention non-linear yang dapat dianalisis
- kasus ketika feature learning non-linear menghasilkan scaling law yang lebih baik
- Saat ini, toy model non-linear masing-masing menangkap sebagian irisan dari pembelajaran yang sepenuhnya non-linear, tetapi kerangka terpadu masih belum muncul
Ekstrem yang memberi wawasan
- Sistem deep learning modern terdiri dari puluhan miliar atau lebih parameter dan data dalam jumlah sangat besar, sehingga teori mikroskopik yang melacak parameter satu per satu tampak nyaris mustahil
- Namun, sistem kompleks sering kali menjadi lebih sederhana pada limit ketika ukurannya secara efektif dibuat tak hingga, dan struktur sederhana ini memberi wawasan yang berguna bahkan untuk sistem berhingga di dunia nyata
- Logikanya sama seperti hukum gas ideal yang diturunkan pada limit jumlah partikel tak hingga tetapi tetap cocok untuk gas berhingga yang nyata
- Dalam deep learning juga, limit adalah alat matematika kunci untuk menangani kompleksitas, dan keberhasilannya yang berulang itu sendiri diajukan sebagai bukti kuat bagi teori yang sedang muncul
-
Limit lebar tak hingga dan dikotomi lazy-rich
- Jika jumlah neuron pada hidden layer dibuat tak hingga, akan muncul mean-field behavior sehingga kita cukup melihat evolusi distribusi seluruh populasi neuron, bukan neuron individual
- Namun, untuk mencegah divergensi activation pada lapisan yang dalam, skala inisialisasi harus diperkecil seiring lebar yang membesar, dan laju penurunan ini memunculkan dua jenis dinamika limit yang berbeda
-
Rezim lazy atau kernel atau linearized
- Jika setiap parameter pada inisialisasi diperkecil menjadi [width]−1/2, input neuron tersembunyi tidak menghilang maupun meledak
- Ketika jaringan seperti ini dilatih, weight dan representasi tersembunyi hampir tidak berubah, tetapi perubahan kecil itu terakumulasi sehingga fungsi output berubah besar
- Akibatnya, dinamika pembelajaran bersifat linear terhadap parameter, dan evolusi fungsi output sepenuhnya dinyatakan oleh NTK
- Daya analisisnya tinggi, tetapi karena representasi tersembunyi hampir tidak berubah, ia tidak menunjukkan feature learning
- Limit ini kemudian dirangkum dengan nama lazy
-
Rezim rich atau active atau feature-learning
- Jika bobot lapisan terakhir diperkecil lebih kuat menjadi [width]−1, muncul limit lain yang memungkinkan feature learning karena model harus berubah lebih banyak selama pelatihan
- Dalam kasus ini, output awal menjadi 0 pada lebar tak hingga, tetapi selama pelatihan ia dapat tumbuh secara bermakna hingga tingkat order-one pada setiap gradient step
- Gagasan yang bermula dari shallow mean-field network ini diperluas ke jaringan dengan arbitrary depth, dan skala terkait terhubung dengan Maximal Update Parameterization, µP
- Kini telah diterima luas bahwa network infinite-width juga dapat mempelajari feature
-
Perilaku yang muncul dalam rezim rich
- Hidden feature berubah seiring waktu dan beradaptasi dengan struktur data masukan
- Geometry representasi internal berubah selama pelatihan
- Subkelompok neuron menjadi terspesialisasi pada latent feature yang berbeda
- Ketika prediksi optimal berada pada subruang berdimensi rendah dari data berdimensi tinggi, distribusi bobot lapisan pertama berevolusi ke arah yang memperkuat subruang yang menjadi fokus itu
- Jika skala inisialisasi dibuat lebih kecil lagi, greedy low-rank bias yang disebut sebelumnya sering muncul kembali
-
Transisi lazy-rich yang juga muncul pada lebar berhingga
- Menurunkan skala output mendorong feature learning sehingga bergeser ke arah rezim rich
- Menaikkan skala output membuat dinamika pelatihan lebih terlinearisasi sehingga muncul perilaku lazy
- Jaringan berhingga yang sama pun dapat menunjukkan pembelajaran lazy atau rich tergantung skala output, dan Figure 2 memvisualisasikan perbedaan ini
-
Limit kedalaman tak hingga dan limit hiperparameter lainnya
- Pada deep residual network, jika kontribusi tiap lapisan dikecilkan secara tepat, kita dapat mencapai infinite depth limit yang stabil
- Jika tiap lapisan ditekan sebesar [depth]−1, muncul limit di mana residual stream berubah mulus terhadap kedalaman, yang mengingatkan pada Neural ODE
- Jika tiap lapisan ditekan sebesar [depth]−1/2, muncul limit di mana residual stream berdifusi seolah didorong oleh persamaan diferensial stokastik
- Kedua limit ini berkonvergensi ke solusi yang berbeda secara kualitatif pada arsitektur realistis seperti transformer, dan belum jelas mana yang lebih penting
-
Limit ukuran lainnya
- Arsitektur recurrent dapat dianalisis melalui limit tak hingga dari struktur recurrent, alih-alih jumlah lapisan feedforward
- Transformer modern mencakup blok yang lebih ekspresif seperti multi-head self-attention dan mixture-of-expert MLP
- Attention memiliki beberapa arah penskalaan: head count, head size, dan context length
- Mixture-of-expert memiliki beberapa arah penskalaan: expert count, expert size, dan sparsity
- Menjelaskan interaksi di antara berbagai limit tak hingga yang berbeda ini penting untuk menghubungkannya dengan praktik modern, serta untuk memahami secara terpisah hiperparameter yang terkait dengan inisialisasi dan optimisasi
Ringkasan yang terlihat dari tabel dan gambar
- Table 1 merangkum bahwa alat riset utama deep learning sangat mirip dengan alat-alat dalam fisika
- solvable settings berpadanan dengan deep linear network, kernel regression, dan multi-index model, sedangkan dalam fisika berpadanan dengan harmonic oscillator, hydrogen atom, dan model Ising
- simplifying limits berkaitan dengan lazy vs rich learning, limit tak hingga pada width dan depth, serta small initialization, dan disejajarkan dengan thermodynamic limit, classical limit, dan hydrodynamic limit dalam fisika
- simple empirical laws muncul sebagai neural scaling laws, edge of stability, dan neural feature ansatz, dan disejajarkan dengan hukum-hukum seperti Kepler, Snell, Boyle, Hooke, Newton, Faraday, Ohm, Poiseuille, Planck, dan Hubble dalam fisika
- Kajian system parameters dirangkum serupa dengan scaling analysis, nondimensionalization, serta rezim chaotic vs ordered dalam fisika, dan dihubungkan dengan cara pandang terhadap step size sebagai sharpness regularization, juga dengan µP dan width scaling
- universal phenomena muncul sebagai inductive bias dan representation yang sama di berbagai model, dan berpadanan dengan critical phenomena serta renormalization group flow dalam fisika
- Figure 1 menekankan bahwa linearisasi memberikan solusi eksak dan sangat sesuai dengan eksperimen
- Pada deep linear network, singular mode dipelajari secara berurutan di bawah task-aligned initialization dan whitened input
- Jika nonlinear network dilinearisasi dengan ekspansi Taylor di titik inisialisasi, ia direduksi menjadi kernel ridge regression melalui NTK, dan prediksi performa uji sangat dekat dengan eksperimen pada berbagai tugas klasifikasi biner CIFAR-5m
- Figure 2 menunjukkan bahwa hanya dengan skala output besar dan skala output kecil saja kita sudah dapat memicu dinamika pelatihan lazy dan rich
- Bahkan pada shallow student network yang sama, saat
α = 0.1 student weight bergerak besar dan berkumpul di sekitar arah feature teacher, menunjukkan dinamika rich
- Saat
α = 30, loss memang turun tetapi student weight hampir tidak bergerak, sehingga menunjukkan dinamika lazy
1 komentar
Opini Hacker News
Dari sudut pandang orang yang bekerja di bidang ini, tulisan ini merangkum topik penelitian yang paling banyak dibahas saat ini dengan cukup baik
Terutama bagian open problems di akhir yang pada dasarnya sudah menyinggung hampir semua arah riset inti, jadi itulah bagian yang paling berguna
Melihat banyaknya skeptisisme di komentar, agak disayangkan karena itu menunjukkan bahwa riset seperti ini nyaris tidak tersampaikan ke publik
Memang masih belum banyak mekanisme untuk menurunkan desain jaringan optimal secara langsung secara matematis, tetapi itu biasanya karena eksperimen bergerak lebih cepat daripada teori sehingga penjelasan sering datang belakangan
Meski begitu, untuk pertanyaan mengapa jaringan saraf bekerja lebih baik daripada model lain, kini kita sudah cukup dekat dengan jawaban yang solid
Masalahnya, ternyata itu bukan pertanyaan yang sebenarnya paling ingin diketahui orang, jadi sekarang rasanya kita sudah sampai pada tahap menentukan apa pertanyaan berikutnya yang perlu diajukan
Pertanyaan tentang mengapa ia bekerja pada umumnya sudah terjawab, dan inti persoalannya adalah meminimalkan kehilangan informasi yang tidak dapat dibalik secara efisien relatif terhadap noise floor
Matematika sebenarnya menunjukkan jalan yang lebih efisien, tetapi industri selama beberapa tahun hanya terus mendorong model yang lebih besar, sehingga banyak pemborosan
Model 70B yang dibuat dengan baik pun sebenarnya bisa dijalankan sekitar 16GB tanpa kehilangan kemampuan dan bahkan tetap bisa terus dilatih, tetapi pendanaan terus terkonsentrasi pada yang lebih besar
Kini industri telah menggeser tujuan ke Agency dan Long-horizon Persistence, dan transisi dari kalkulator prediktif ke sistem yang bertahan lama lebih dekat ke persoalan termodinamika nonequilibrium
Ada matematika dan hukum yang berlaku sama persis untuk AI, dan prinsip bagaimana sinyal bertahan di dalam model serta bagaimana agen bertahan pada dasarnya tersambung oleh matematika yang sama
Bidang keahlian saya juga tepat di soal persistensi ini, dan jujur kadang membuat frustrasi melihat bidang AI susah payah mempelajari ulang prinsip pertama yang sebenarnya sudah dipahami di bidang lain
Karena itu saya menulis dan membagikan dokumen yang menjelaskan bagaimana matematika ini bekerja dan bagaimana menerapkannya ke masing-masing domain; setelah membacanya, orang bisa tahu secara tepat apa yang harus diperbaiki agar persistensi meningkat, alih-alih sekadar menebak-nebak
Pertanyaan seperti seberapa banyak jam sebuah model bisa dibuat bekerja sampai terasa lucu, karena ada pertanyaan lain yang jauh lebih mendasar
Dari sudut pandang klasik, efek overparameterization atau struktur jaringan saraf lain memang terus terang sulit diterima
Saya mengakui double descent memang bekerja secara empiris, tetapi secara naluriah rasanya seharusnya tidak begitu
Sebagai orang yang menyukai Elements karya Hastie dkk., bahkan dari bias-variance tradeoff saja rasanya hasil seperti itu sulit muncul
Ini sudah bertahun-tahun mengganjal pikiran saya, jadi kalau memang ada kemajuan di sini, itu akan sangat berguna bahkan secara filosofis
Saya baru membaca pendahuluannya, tetapi tulisannya bagus, dan program riset seperti ini pantas didukung
Ini terasa mirip dengan bagging atau boosting yang pada awalnya berhasil lebih dulu secara empiris sebelum ada teori
Mungkin ini banyak dipengaruhi oleh cara jaringan saraf digambarkan seolah berada di kutub berlawanan dari linear regression yang bisa ditafsirkan secara klasik
Karena rekayasa bergerak terlalu cepat, ada juga suasana bahwa bila riset tidak langsung menghasilkan dampak, orang tidak mau menunggu
Bahkan di kalangan peneliti interpretabilitas pun, banyak yang tampak terlalu cepat menyerah jika hasil yang mencolok tidak segera muncul
Kalau ada bahan rujukan yang juga cocok untuk nonspesialis, saya ingin tahu
Memang benar ia bisa menangani kumpulan masalah yang jauh lebih luas, seperti citra yang sulit untuk ML tradisional, tetapi sejauh yang saya tahu, di tempat yang bisa dibandingkan secara setara, gradient boosting kadang justru lebih baik
Bagian yang saya tidak pahami adalah ini
Gagasan jaringan saraf sudah ada sejak puluhan tahun lalu, tetapi lama tidak terlalu mendapat perhatian, lalu setelah Attention Is All You Need pada 2017 deep learning meledak besar
Saya paham GPU mempercepat deep learning, tetapi konsep transformer sendiri terasa seperti sesuatu yang seharusnya bisa dicoba lebih awal dengan perangkat keras yang jauh lebih lambat
Seperti di https://en.wikipedia.org/wiki/AlexNet, AlexNet menunjukkan lonjakan performa yang benar-benar berbeda skala dalam kompetisi klasifikasi ImageNet, dan setelah itu laboratorium riset citra ML besar beralih total ke deep CNN
Dalam beberapa tahun, pendekatan lain hampir menghilang dari kompetisi citra SOTA, lalu jaringan saraf dalam menguasai bidang ML lain juga
Penjelasan umum pada akhirnya adalah kombinasi dua hal
Pertama, kapasitas komputasi yang jauh lebih besar dibanding masa lalu, dan kedua, dataset berkualitas tinggi yang jauh lebih besar seperti ImageNet yang dipoles dan diberi label secara manual
attention sangat berguna terutama untuk mempelajari relasi kompleks pada sekuens seperti teks yang struktur urutannya relatif bebas, tetapi sekarang banyak orang melihat arsitektur bukan sebagai esensi dari pembelajaran itu sendiri, melainkan lebih sebagai tradeoff pilihan saat data dan komputasi masih kurang
Pada akhirnya, seperti di https://en.wikipedia.org/wiki/Bitter_lesson, lebih banyak komputasi dan lebih banyak data sering mengalahkan model yang tampak lebih cerdas tetapi tidak bisa diskalakan dengan baik
Manusia punya kira-kira 10^11 neuron, anjing 10^9, tikus sekitar 10^7, dan yang mencolok di sini adalah semuanya angka yang sangat besar
Bahkan kecerdasan terbatas seperti tikus pun membutuhkan ratusan juta neuron, dan kecerdasan tampaknya baru muncul setelah melewati ambang kapasitas komputasi tertentu
Mungkin karena untuk menangani kompleksitas inheren dari lingkungan pembelajaran yang rumit, dibutuhkan banyak parameter
Sebaliknya, pada masalah yang sederhana atau terstruktur, ada banyak teknik yang bekerja baik dengan sedikit parameter, atau bahkan terbukti optimal
Yang kita maksud dengan pembelajaran dan kecerdasan biasanya mengasumsikan lingkungan yang kompleks, dan kompleksitas seperti itu pada dasarnya menuntut jumlah parameter yang besar
Itu mendominasi kompetisi, dan dalam beberapa tahun pekerjaan citra pada dasarnya menjadikan pendekatan itu standar
Seingat saya Jeremy Howard yang menulis sekitar 2017, menanyakan kapan transfer learning yang di NLP bisa bekerja sebaik convnet di citra akan muncul
Paper attention pada tahun itu tidak langsung menguasai dunia, dan saat itu perangkat keras juga masih kurang, juga belum ada konsensus bahwa skala menyelesaikan segalanya
Butuh hampir 5 tahun lagi sampai GPT-3 muncul, dan baru saat itulah gelombang sekarang dimulai
Selain itu, orang sering meremehkan skala compute yang dibutuhkan untuk melatih monster ini; dengan satu prosesor tunggal 1GHz, melatih model kelas seperti ini akan memakan kira-kira 100 juta tahun
Model setingkat GPT-3 pun memakai sekitar 25 ribu GPU selama berbulan-bulan, dan dengan memori GPU yang lemah 10 tahun lalu, pelatihan transformer besar pada dasarnya mustahil
k80 lama hanya sekitar 12GB, sedangkan H100/H200 sekarang berada di kelas ratusan GB, jadi transformer besar memang secara praktis belum bisa dibangun sebelum awal 2020-an
Saya juga jadi ingat para gamer di akhir 2010-an yang mengeluh harga GPU melonjak gara-gara ML
Yang menarik, sebelum itu jaringan saraf diperlakukan seolah tidak terlalu penting
Saat saya mengambil kuliah terkait sekitar tahun 2000 pun suasananya umumnya seperti itu
Agar minat itu menyala lagi, tampaknya memang dibutuhkan gabungan data latih yang sangat besar seperti ImageNet dan prosesor yang cepat
Setelah itu, perbaikan lanjutan pada arsitektur tertentu terus berdatangan dan efeknya membesar seperti bola salju
Di komunitas yang lebih luas, AlexNet terlihat sebagai titik percabangan besar, tetapi di dalam akademia, arah angin sebenarnya sudah berubah 2~3 tahun sebelumnya
Saya mulai melihat presentasi tentang jaringan saraf tidak lagi diabaikan di workshop sekitar 2008~09
Matriks sudah ada sejak 400 tahun lalu, tetapi aljabar linear, terutama aljabar linear numerik, baru meledak setelah komputer muncul
Dulu menyelesaikan sistem persamaan linear lewat teori minors adalah cara baku, tetapi setelah komputer hadir, teori seperti Gaussian elimination atau ruang Krylov berkembang pesat
Orang mungkin sudah membayangkannya, tetapi tidak punya perangkat keras untuk benar-benar mewujudkannya
Kalau disederhanakan, LLM pada akhirnya hanyalah transformer yang dipasangi data dalam jumlah sangat besar, dan untuk benar-benar bisa melatih data sebesar itu, perangkat keras yang cukup kuat mutlak diperlukan
Menarik bahwa kita mencoba memahami satu alat belajar, yaitu otak, dengan alat belajar lain
SGD sudah bekerja cukup baik, dan walau dibuat beberapa kali lebih baik pun, itu belum tentu menyelesaikan pertanyaan mendasar tentang apa sebenarnya yang dilakukan black box ini
Cara belajar dan apa yang sebenarnya dilakukan model adalah dua persoalan berbeda, dan otak kita sendiri juga black box dalam banyak hal
Karena itu terasa perlu ada penghubung yang lebih kuat antara riset mekanisme pembelajaran, psikologi, dan gagasan filosofis tentang hakikat pikiran serta bahasa
Ini memberi harapan, tetapi menurut saya judulnya agak berlebihan
Mungkin yang lebih tepat adalah sesuatu seperti titik serang untuk memahami apa sebenarnya yang dilakukan deep learning, tetapi itu tentu kurang menarik perhatian
Jika ini bisa mengarah pada cara mengukur kapan sistem deep learning menghasilkan halusinasi, nilainya akan luar biasa besar
Sampai itu tercapai, sistem deep learning hanya bisa dipakai secara terbatas pada tugas-tugas yang risikonya kecil bila ia mengeluarkan omong kosong
Misalnya, istilah hallucination itu sendiri memaksakan makna manusiawi pada keluaran LLM
Jika dilihat dari prinsip kerja matematis yang sebenarnya, halusinasi hanyalah satu keluaran lagi, dan tidak ada batas tegas yang terdefinisi antara itu dan keluaran lain
Itu juga arah riset utama saya, jadi mungkin saya bias
Pendekatan yang umum adalah OOD detection, tetapi saya sudah lama merasa bahwa perumusan masalahnya sendiri tidak stabil
Karena itu bersama rekan-rekan saya mencoba pendekatan yang lebih mendasar lewat pengukuran misspecification model, tetapi biaya komputasinya terlalu besar sehingga untuk saat ini masih dekat ke topik niche
Ke mana pun arahnya, tampaknya masih perlu waktu sebelum ada terobosan
Ini membuat saya merasa ada kemiripan konseptual dengan vibecoding
Kita bikin sesuatu dulu sampai bekerja, lalu memahami mengapa itu berhasil dan bagaimana cara kerjanya adalah pekerjaan lain yang terpisah
Tunggu, jadi kita membuat sesuatu yang bahkan belum benar-benar kita pahami dan belum bisa kita jelaskan dengan baik, lalu sekarang menyebutnya science?
Selama puluhan tahun kita meminjam istilah dari biologi, terutama neurobiologi, dan pada akhirnya memang ada kesan seperti sekadar copy paste sambil meniru monyet
Terus terang, dua upaya teori universal ini justru terasa lebih menarik bagi saya
https://arxiv.org/abs/2510.12269
https://www.mdpi.com/1099-4300/28/3/332
Saya juga penasaran dengan kaitannya ke fuzzy logic
Jaringan saraf terlihat seperti bernalar dengan cara yang samar, tetapi saya tidak tahu persis secara formal itu seharusnya disebut apa
Selama bertahun-tahun ada upaya untuk memformalkan fuzzy reasoning, tetapi sekarang tampaknya sudah tidak ada yang peduli
Rasanya bagi saya jaringan saraf dan transformer itu seperti OOP dalam ML
Sangat populer dan cukup ampuh dalam praktik, tetapi fondasinya masih kabur, dan terasa seperti mengekspresikan ulang hal yang sebenarnya sudah bisa diungkap sebelumnya dengan bahasa baru, hanya saja sulit menunjukkan tepatnya di mana keuntungan itu muncul
Saya belum selesai membaca paper-nya, tetapi tulisan ini benar-benar memikat dan terasa cukup penuh pertimbangan
Ada sangat banyak hal untuk dicerna, tetapi melihat semua ini dirangkum jadi satu terasa sangat menarik
Alasan deep learning bekerja baik pada level tinggi pada akhirnya adalah karena kemampuannya untuk terus belajar dari lebih banyak data lebih unggul daripada pendekatan lain
Namun tanpa jumlah data yang sangat besar yang sekarang tersedia, arsitekturnya mungkin tidak akan terlalu penting
Kalau dua sisi persamaan model-data tidak dijelaskan bersama, rasanya sulit membangun teori ilmiah yang kokoh untuk pertanyaan seperti mengapa model reasoning bisa menalar
Model adalah hasil gabungan antara arsitektur dan data pelatihan
Saat ini masalah ini terasa sama sulitnya dengan menjelaskan bagaimana manusia atau hewan mempelajari hal tertentu di tengah masukan data yang sangat besar
Pemahaman empiris kita mungkin akan membaik, tetapi akarnya belum tentu bisa direduksi kembali menjadi ilmu komputer
Menurut saya inti kompleksitas yang sesungguhnya lebih ada pada gigadataset daripada arsitektur
Teori menjadi sangat penting begitu kita perlu memprediksi mode kegagalan
Sistem pendukung keputusan yang biasanya cukup benar tetapi diam-diam gagal pada kasus tepi justru bisa lebih berbahaya daripada sistem yang lebih sederhana dengan batasan yang jelas
Memahami mekanisme bias membantu membedakan kapan model benar-benar yakin, dan kapan ia sekadar melakukan pattern matching
Perbedaan ini sangat penting terutama di lingkungan dengan taruhan besar