Akan Muncul Teori Ilmiah tentang Deep Learning
(arxiv.org)- Sebuah makalah yang berargumen bahwa teori ilmiah untuk mengkarakterisasi sifat-sifat utama deep learning seperti proses pembelajaran, representasi tersembunyi, bobot akhir, dan performa sedang terbentuk
- Mengajukan lima alur riset sebagai dasar utama: pengaturan idealisasi yang dapat dipecahkan, limit yang mudah ditangani, hukum matematika sederhana, teori hyperparameter, dan perilaku universal
- Teori ini berfokus pada dinamika proses pembelajaran, menggambarkan statistik agregat yang kasar, dan menekankan prediksi kuantitatif yang dapat dipalsukan
- Mengusulkan kerangka teori baru ini dengan nama "learning mechanics" sebagai dinamika proses pembelajaran
- Hasil seperti deep linear network, NTK, serta pembedaan mean-field dan lazy-rich memungkinkan pembahasan kuantitatif tentang dinamika pembelajaran, generalisasi, feature learning, dan scaling law
- Memprediksi hubungan simbiotik dengan sudut pandang statistik, information-theoretic, dan mechanistic interpretability, sekaligus meninjau arah masa depan teori deep learning
Klaim inti makalah
- Sebuah teori ilmiah(scientific theory) yang mengkarakterisasi sifat dan statistik penting deep learning seperti proses pembelajaran, representasi tersembunyi, bobot akhir, dan performa sedang muncul
- Dengan mensintesis arus utama riset teori deep learning yang sedang berlangsung, makalah ini mengidentifikasi lima arah penelitian yang mendukung keberadaan teori tersebut
- (a) pengaturan idealisasi yang dapat dipecahkan(solvable idealized settings): memberi intuisi tentang dinamika pembelajaran pada sistem realistis
- (b) limit yang mudah ditangani(tractable limits): menyingkap wawasan tentang fenomena pembelajaran yang mendasar
- (c) hukum matematika sederhana(simple mathematical laws): menangkap observabel makroskopik penting(macroscopic observables)
- (d) teori hyperparameter(theories of hyperparameters): memisahkan hyperparameter dari sisa proses pembelajaran sehingga menyisakan sistem yang lebih sederhana
- (e) perilaku universal(universal behaviors): melalui fenomena yang dibagikan lintas sistem dan pengaturan, memperjelas fenomena mana yang memerlukan penjelasan
- Teori yang sedang muncul ini paling tepat dipandang sebagai dinamika proses pembelajaran, dan penulis mengusulkan nama "learning mechanics"
- Membahas hubungan dengan pendekatan lain untuk membangun teori deep learning, seperti sudut pandang statistik(statistical) dan information-theoretic
- Secara khusus memprediksi hubungan simbiotik(symbiotic relationship) antara learning mechanics dan mechanistic interpretability
Pendahuluan
- Deep learning sangat kuat, tetapi masih belum memiliki kerangka ilmiah terpadu yang menjelaskan cara kerja internalnya
- Jaringan saraf menunjukkan performa superhuman di berbagai tugas, tetapi belum ada teori terpadu tentang mengapa sistem ini bekerja demikian dan bagaimana performa itu muncul
- Cara pelatihan di dunia nyata pun masih sangat bergantung pada trial and error alih-alih first principles, dan teori masih berperan terbatas dalam praktik deep learning sehari-hari
- Memasuki era large language model dan diffusion model, misterinya makin dalam, tetapi teori ilmiah deep learning sebenarnya mulai terbentuk dan bentuknya lebih dekat ke mechanics dari proses pembelajaran
- Fokus teori deep learning telah berubah seiring waktu
- Pada fase awal, fokus utamanya adalah fungsi apa yang dapat direpresentasikan model dan bagaimana model belajar dari data
- Setelah itu fokus bergeser ke kapan model dapat melakukan generalisasi pada sampel berhingga, sehingga berkembang classical learning theory, computational learning theory, teori PAC, dan teori optimisasi klasik
- Pada saat yang sama, tradisi statistical physics of machine learning yang membahas perilaku rata-rata model sederhana juga ikut terbentuk
- Jaringan multilapis, backpropagation, serta pembesaran skala data dan sumber daya komputasi mengungkap keterbatasan teori lama
- Jaringan saraf memiliki struktur non-convex dan overparameterized, berbeda dari model sederhana dan convex yang ditangani dengan baik oleh teori klasik
- Sistem ini belajar bukan hanya kesalahan pelatihan yang rendah, tetapi juga representasi internal yang terstruktur, dan memperlihatkan regularitas lintas tugas serta skala
- Perubahan ini mendorong teori deep learning berpindah dari tahap yang secara matematis menanyakan apa yang mungkin, ke tahap ilmiah yang mendeskripsikan dan memprediksi perilaku sistem empiris yang kompleks
- Karena itu dibutuhkan pendekatan ilmiah yang merangkul observasi empiris, mencari prinsip pemersatu, dan mengidentifikasi pola yang berulang
- Ke depan, jalurnya dipandang lebih mirip proses pendewasaan sebuah bidang ilmu daripada perkembangan murni bidang matematika
Apa itu learning mechanics
- Pembelajaran jaringan saraf dapat dipandang mirip dengan mechanics yang menggambarkan benda bergerak di ruang dan waktu
- Seperti benda yang bergerak terus-menerus dalam ruang fisik karena gaya, model bergerak di dalam parameter space melalui pembaruan diskret
- Seperti gaya dalam fisika yang muncul dari interaksi antar-komponen sistem, dalam deep learning pembelajaran dibentuk oleh interaksi antara parameter, dataset, tugas, dan aturan belajar
- Ada pula korespondensi antara medan dalam fisika dan gradient dalam deep learning
- Sebagaimana sistem fisik menetap pada titik minimum lokal dari potential yang ditentukan oleh interaksi internal dan kendala eksternal, jaringan saraf juga konvergen ke titik minimum lokal pada loss landscape yang dibentuk oleh arsitektur dan data pelatihan
- Analogi ini bukan sekadar retorika, tetapi juga selaras dengan arus riset yang sedang berlangsung
- Seperti berbagai cabang mechanics yang memanfaatkan pengaturan yang dapat dianalisis, limit yang disederhanakan, statistik ringkasan, analisis parameter sistem, dan fenomena universal, learning mechanics menggunakan alat yang sama
- Khususnya seperti continuum mechanics dan statistical mechanics yang menangani banyak elemen saling berinteraksi, deep learning juga efektif dijelaskan melalui statistik pada level yang diperbesar ketimbang tiap elemen satu per satu
- Program riset ini dapat disatukan dengan nama learning mechanics
7 syarat yang dibutuhkan untuk learning mechanics
-
Fundamentalitas
- Pelatihan jaringan saraf harus dikembangkan secara logis mulai dari first principles
- Asumsi tentang bobot, dinamika, dan performa boleh dipakai sebagai alat pada tahap antara, tetapi pada akhirnya semuanya juga harus dijelaskan dari first principles
-
Sifat matematis
- Harus menghasilkan pernyataan kuantitatif yang tidak ambigu tentang sifat-sifat penting jaringan saraf
- Deskripsi kualitatif saja tidak cukup untuk membentuk mechanics
-
Daya prediksi
- Harus mengajukan klaim yang dapat diverifikasi dengan pengukuran empiris yang sederhana dan dapat diulang
- Karena kontrol eksperimen atas sistem ini sangat baik, kemajuan utama harus bisa diuji secara jelas lewat eksperimen
-
Cakupan
- Harus menghubungkan proses pelatihan, representasi internal, dan bobot akhir dalam satu gambaran
- Bukan berusaha memuat semua detail, melainkan memilih resolusi yang tepat yang tetap memberi wawasan meski mengorbankan sebagian detail
-
Intuitivitas
- Harus memprioritaskan wawasan yang sederhana dan mencerahkan dibanding kerumitan teknis
- Harus menjadi teori yang memberi kepuasan karena menyingkap misteri deep learning
-
Kegunaan
- Seperti fisika menjadi dasar bagi cabang-cabang rekayasa lain, teori ini harus menjadi landasan ilmiah bagi deep learning terapan
- Tujuan konkretnya mencakup pengurangan hyperparameter tuning, alat prediksi untuk dataset design, dan landasan ketat bagi AI safety
-
Kerendahan hati
- Harus jelas tentang apa yang bisa dijelaskan dengan baik dan apa yang tidak bisa dijelaskan
- Mechanics yang dapat diterapkan pada deep learning realistis pun bisa runtuh pada kasus-kasus khusus yang kecil dan dirancang manual, dan ini dipandang sebagai harga untuk memperoleh gambaran sederhana pada wilayah yang diminati
Mengapa learning mechanics penting
-
Alasan ilmiah
- Keberhasilan rekayasa jaringan saraf besar menunjukkan bahwa sistem ini memanfaatkan prinsip mendalam tentang pembelajaran dan representasi yang belum dipahami
- Dicontohkan preseden ketika teknologi lebih dulu hadir sebelum teori, seperti steam engine dan thermodynamics, serta pesawat terbang dan aerodynamic theory
- Prinsip pembelajaran jaringan saraf buatan juga bisa memberi terang bagi pemahaman tentang biological intelligence, dengan implikasi bagi neuroscience dan cognitive science
-
Alasan praktis
- Teori deep learning yang matang dapat menuntun desain model, optimisasi, scaling, dan deployment dengan prinsip yang lebih dapat diandalkan
- Di beberapa area, teori sudah mulai berperan
- empirical scaling laws
- resep matematis untuk scaling hyperparameter
- optimizer dan metode data attribution yang dirancang dengan motivasi teoretis
- Teori yang lebih dalam dan lengkap dapat memberi lebih banyak panduan seperti ini, sekaligus membuatnya lebih tajam dan lebih prediktif
-
Alasan terkait keselamatan
- Untuk mendeskripsikan, mengkarakterisasi, dan mengendalikan sistem AI yang makin kuat, kita harus mampu memperjelas variabel, mekanisme, dan prinsip organisasinya
- Sulit mengatur teknologi yang tidak bisa dideskripsikan dengan jelas, dan fundamental theory dapat memberi kejernihan yang dibutuhkan untuk reliability, oversight, dan control
- Secara khusus diajukan kemungkinan kontribusi pada AI safety dengan cara yang mendukung mechanistic interpretability
Bukti bahwa learning mechanics sedang muncul
- Komponen inti deep learning bersifat eksplisit dan dapat diukur
- Arsitektur diberikan sebagai jaringan saraf f(x; θ) yang didefinisikan sebagai komposisi transformasi linear dan non-linear sederhana
- Data diberikan sebagai himpunan sampel D = {(xi, yi)} dari distribusi pembangkitan data yang tidak diketahui
- Tugas didefinisikan sebagai fungsi objektif L(θ) yang mengukur performa pada dataset
- Aturan belajar dijelaskan melalui pembaruan berbasis gradient seperti
θ(t+1) = θ(t) −η∇L(θ(t)), bersama inisialisasi dan hyperparameter optimisasi
- Hampir tidak ada yang tersembunyi dalam proses pembelajarannya
- Tidak seperti banyak sistem kompleks lain, deep learning secara langsung memperlihatkan equations of motion yang mengatur dinamikanya
- Semua weight, activation, gradient, dan loss dapat dicatat, dan dari sana statistik apa pun bisa dibentuk
- Perancangan eksperimen, reproduksi, dan verifikasi mudah dilakukan sehingga cocok untuk menemukan regularitas empiris dan menguji prediksi teori secara ketat
- Meski demikian, tantangan utamanya bukan ketertutupan melainkan kompleksitas
- Interaksi antara architecture, data, task, dan learning rule menghasilkan dinamika pembelajaran yang non-linear, terkopel, dan berdimensi tinggi
- Sistem sensitif terhadap pilihan hyperparameter, dan distribusi data itu sendiri juga sulit dikarakterisasi secara sederhana
- Meski begitu, di balik kompleksitas ini terdapat regularitas, dan diajukan lima observasi yang mendukungnya
- (a) pengaturan idealisasi yang dapat dipecahkan(solvable idealized settings)
- (b) limit yang mudah ditangani(tractable limits)
- (c) hukum matematika sederhana(simple mathematical laws)
- (d) teori hyperparameter(theories of hyperparameters)
- (e) perilaku universal(universal behaviors)
=== Isi makalah dihilangkan ===
- Materi pengantar tambahan, perspektif, dan pertanyaan terbuka tersedia di learningmechanics.pub
- Makalah ini terdiri dari 41 halaman
2 komentar
Maksudnya mau melihat dan memecahkannya dari sudut pandang dinamika, tapi saya sendiri ragu sejak awal apakah mereka bisa membuat persamaan yang memungkinkan dicari solusi umumnya.
Opini Hacker News
Dari sudut pandang orang yang bekerja di bidang ini, tulisan ini merangkum topik penelitian yang paling banyak dibahas saat ini dengan cukup baik
Terutama bagian open problems di akhir yang pada dasarnya sudah menyinggung hampir semua arah riset inti, jadi itulah bagian yang paling berguna
Melihat banyaknya skeptisisme di komentar, agak disayangkan karena itu menunjukkan bahwa riset seperti ini nyaris tidak tersampaikan ke publik
Memang masih belum banyak mekanisme untuk menurunkan desain jaringan optimal secara langsung secara matematis, tetapi itu biasanya karena eksperimen bergerak lebih cepat daripada teori sehingga penjelasan sering datang belakangan
Meski begitu, untuk pertanyaan mengapa jaringan saraf bekerja lebih baik daripada model lain, kini kita sudah cukup dekat dengan jawaban yang solid
Masalahnya, ternyata itu bukan pertanyaan yang sebenarnya paling ingin diketahui orang, jadi sekarang rasanya kita sudah sampai pada tahap menentukan apa pertanyaan berikutnya yang perlu diajukan
Pertanyaan tentang mengapa ia bekerja pada umumnya sudah terjawab, dan inti persoalannya adalah meminimalkan kehilangan informasi yang tidak dapat dibalik secara efisien relatif terhadap noise floor
Matematika sebenarnya menunjukkan jalan yang lebih efisien, tetapi industri selama beberapa tahun hanya terus mendorong model yang lebih besar, sehingga banyak pemborosan
Model 70B yang dibuat dengan baik pun sebenarnya bisa dijalankan sekitar 16GB tanpa kehilangan kemampuan dan bahkan tetap bisa terus dilatih, tetapi pendanaan terus terkonsentrasi pada yang lebih besar
Kini industri telah menggeser tujuan ke Agency dan Long-horizon Persistence, dan transisi dari kalkulator prediktif ke sistem yang bertahan lama lebih dekat ke persoalan termodinamika nonequilibrium
Ada matematika dan hukum yang berlaku sama persis untuk AI, dan prinsip bagaimana sinyal bertahan di dalam model serta bagaimana agen bertahan pada dasarnya tersambung oleh matematika yang sama
Bidang keahlian saya juga tepat di soal persistensi ini, dan jujur kadang membuat frustrasi melihat bidang AI susah payah mempelajari ulang prinsip pertama yang sebenarnya sudah dipahami di bidang lain
Karena itu saya menulis dan membagikan dokumen yang menjelaskan bagaimana matematika ini bekerja dan bagaimana menerapkannya ke masing-masing domain; setelah membacanya, orang bisa tahu secara tepat apa yang harus diperbaiki agar persistensi meningkat, alih-alih sekadar menebak-nebak
Pertanyaan seperti seberapa banyak jam sebuah model bisa dibuat bekerja sampai terasa lucu, karena ada pertanyaan lain yang jauh lebih mendasar
Dari sudut pandang klasik, efek overparameterization atau struktur jaringan saraf lain memang terus terang sulit diterima
Saya mengakui double descent memang bekerja secara empiris, tetapi secara naluriah rasanya seharusnya tidak begitu
Sebagai orang yang menyukai Elements karya Hastie dkk., bahkan dari bias-variance tradeoff saja rasanya hasil seperti itu sulit muncul
Ini sudah bertahun-tahun mengganjal pikiran saya, jadi kalau memang ada kemajuan di sini, itu akan sangat berguna bahkan secara filosofis
Saya baru membaca pendahuluannya, tetapi tulisannya bagus, dan program riset seperti ini pantas didukung
Ini terasa mirip dengan bagging atau boosting yang pada awalnya berhasil lebih dulu secara empiris sebelum ada teori
Mungkin ini banyak dipengaruhi oleh cara jaringan saraf digambarkan seolah berada di kutub berlawanan dari linear regression yang bisa ditafsirkan secara klasik
Karena rekayasa bergerak terlalu cepat, ada juga suasana bahwa bila riset tidak langsung menghasilkan dampak, orang tidak mau menunggu
Bahkan di kalangan peneliti interpretabilitas pun, banyak yang tampak terlalu cepat menyerah jika hasil yang mencolok tidak segera muncul
Kalau ada bahan rujukan yang juga cocok untuk nonspesialis, saya ingin tahu
Memang benar ia bisa menangani kumpulan masalah yang jauh lebih luas, seperti citra yang sulit untuk ML tradisional, tetapi sejauh yang saya tahu, di tempat yang bisa dibandingkan secara setara, gradient boosting kadang justru lebih baik
Bagian yang saya tidak pahami adalah ini
Gagasan jaringan saraf sudah ada sejak puluhan tahun lalu, tetapi lama tidak terlalu mendapat perhatian, lalu setelah Attention Is All You Need pada 2017 deep learning meledak besar
Saya paham GPU mempercepat deep learning, tetapi konsep transformer sendiri terasa seperti sesuatu yang seharusnya bisa dicoba lebih awal dengan perangkat keras yang jauh lebih lambat
Seperti di https://en.wikipedia.org/wiki/AlexNet, AlexNet menunjukkan lonjakan performa yang benar-benar berbeda skala dalam kompetisi klasifikasi ImageNet, dan setelah itu laboratorium riset citra ML besar beralih total ke deep CNN
Dalam beberapa tahun, pendekatan lain hampir menghilang dari kompetisi citra SOTA, lalu jaringan saraf dalam menguasai bidang ML lain juga
Penjelasan umum pada akhirnya adalah kombinasi dua hal
Pertama, kapasitas komputasi yang jauh lebih besar dibanding masa lalu, dan kedua, dataset berkualitas tinggi yang jauh lebih besar seperti ImageNet yang dipoles dan diberi label secara manual
attention sangat berguna terutama untuk mempelajari relasi kompleks pada sekuens seperti teks yang struktur urutannya relatif bebas, tetapi sekarang banyak orang melihat arsitektur bukan sebagai esensi dari pembelajaran itu sendiri, melainkan lebih sebagai tradeoff pilihan saat data dan komputasi masih kurang
Pada akhirnya, seperti di https://en.wikipedia.org/wiki/Bitter_lesson, lebih banyak komputasi dan lebih banyak data sering mengalahkan model yang tampak lebih cerdas tetapi tidak bisa diskalakan dengan baik
Manusia punya kira-kira 10^11 neuron, anjing 10^9, tikus sekitar 10^7, dan yang mencolok di sini adalah semuanya angka yang sangat besar
Bahkan kecerdasan terbatas seperti tikus pun membutuhkan ratusan juta neuron, dan kecerdasan tampaknya baru muncul setelah melewati ambang kapasitas komputasi tertentu
Mungkin karena untuk menangani kompleksitas inheren dari lingkungan pembelajaran yang rumit, dibutuhkan banyak parameter
Sebaliknya, pada masalah yang sederhana atau terstruktur, ada banyak teknik yang bekerja baik dengan sedikit parameter, atau bahkan terbukti optimal
Yang kita maksud dengan pembelajaran dan kecerdasan biasanya mengasumsikan lingkungan yang kompleks, dan kompleksitas seperti itu pada dasarnya menuntut jumlah parameter yang besar
Itu mendominasi kompetisi, dan dalam beberapa tahun pekerjaan citra pada dasarnya menjadikan pendekatan itu standar
Seingat saya Jeremy Howard yang menulis sekitar 2017, menanyakan kapan transfer learning yang di NLP bisa bekerja sebaik convnet di citra akan muncul
Paper attention pada tahun itu tidak langsung menguasai dunia, dan saat itu perangkat keras juga masih kurang, juga belum ada konsensus bahwa skala menyelesaikan segalanya
Butuh hampir 5 tahun lagi sampai GPT-3 muncul, dan baru saat itulah gelombang sekarang dimulai
Selain itu, orang sering meremehkan skala compute yang dibutuhkan untuk melatih monster ini; dengan satu prosesor tunggal 1GHz, melatih model kelas seperti ini akan memakan kira-kira 100 juta tahun
Model setingkat GPT-3 pun memakai sekitar 25 ribu GPU selama berbulan-bulan, dan dengan memori GPU yang lemah 10 tahun lalu, pelatihan transformer besar pada dasarnya mustahil
k80 lama hanya sekitar 12GB, sedangkan H100/H200 sekarang berada di kelas ratusan GB, jadi transformer besar memang secara praktis belum bisa dibangun sebelum awal 2020-an
Saya juga jadi ingat para gamer di akhir 2010-an yang mengeluh harga GPU melonjak gara-gara ML
Yang menarik, sebelum itu jaringan saraf diperlakukan seolah tidak terlalu penting
Saat saya mengambil kuliah terkait sekitar tahun 2000 pun suasananya umumnya seperti itu
Agar minat itu menyala lagi, tampaknya memang dibutuhkan gabungan data latih yang sangat besar seperti ImageNet dan prosesor yang cepat
Setelah itu, perbaikan lanjutan pada arsitektur tertentu terus berdatangan dan efeknya membesar seperti bola salju
Di komunitas yang lebih luas, AlexNet terlihat sebagai titik percabangan besar, tetapi di dalam akademia, arah angin sebenarnya sudah berubah 2~3 tahun sebelumnya
Saya mulai melihat presentasi tentang jaringan saraf tidak lagi diabaikan di workshop sekitar 2008~09
Matriks sudah ada sejak 400 tahun lalu, tetapi aljabar linear, terutama aljabar linear numerik, baru meledak setelah komputer muncul
Dulu menyelesaikan sistem persamaan linear lewat teori minors adalah cara baku, tetapi setelah komputer hadir, teori seperti Gaussian elimination atau ruang Krylov berkembang pesat
Orang mungkin sudah membayangkannya, tetapi tidak punya perangkat keras untuk benar-benar mewujudkannya
Kalau disederhanakan, LLM pada akhirnya hanyalah transformer yang dipasangi data dalam jumlah sangat besar, dan untuk benar-benar bisa melatih data sebesar itu, perangkat keras yang cukup kuat mutlak diperlukan
Menarik bahwa kita mencoba memahami satu alat belajar, yaitu otak, dengan alat belajar lain
SGD sudah bekerja cukup baik, dan walau dibuat beberapa kali lebih baik pun, itu belum tentu menyelesaikan pertanyaan mendasar tentang apa sebenarnya yang dilakukan black box ini
Cara belajar dan apa yang sebenarnya dilakukan model adalah dua persoalan berbeda, dan otak kita sendiri juga black box dalam banyak hal
Karena itu terasa perlu ada penghubung yang lebih kuat antara riset mekanisme pembelajaran, psikologi, dan gagasan filosofis tentang hakikat pikiran serta bahasa
Ini memberi harapan, tetapi menurut saya judulnya agak berlebihan
Mungkin yang lebih tepat adalah sesuatu seperti titik serang untuk memahami apa sebenarnya yang dilakukan deep learning, tetapi itu tentu kurang menarik perhatian
Jika ini bisa mengarah pada cara mengukur kapan sistem deep learning menghasilkan halusinasi, nilainya akan luar biasa besar
Sampai itu tercapai, sistem deep learning hanya bisa dipakai secara terbatas pada tugas-tugas yang risikonya kecil bila ia mengeluarkan omong kosong
Misalnya, istilah hallucination itu sendiri memaksakan makna manusiawi pada keluaran LLM
Jika dilihat dari prinsip kerja matematis yang sebenarnya, halusinasi hanyalah satu keluaran lagi, dan tidak ada batas tegas yang terdefinisi antara itu dan keluaran lain
Itu juga arah riset utama saya, jadi mungkin saya bias
Pendekatan yang umum adalah OOD detection, tetapi saya sudah lama merasa bahwa perumusan masalahnya sendiri tidak stabil
Karena itu bersama rekan-rekan saya mencoba pendekatan yang lebih mendasar lewat pengukuran misspecification model, tetapi biaya komputasinya terlalu besar sehingga untuk saat ini masih dekat ke topik niche
Ke mana pun arahnya, tampaknya masih perlu waktu sebelum ada terobosan
Ini membuat saya merasa ada kemiripan konseptual dengan vibecoding
Kita bikin sesuatu dulu sampai bekerja, lalu memahami mengapa itu berhasil dan bagaimana cara kerjanya adalah pekerjaan lain yang terpisah
Tunggu, jadi kita membuat sesuatu yang bahkan belum benar-benar kita pahami dan belum bisa kita jelaskan dengan baik, lalu sekarang menyebutnya science?
Selama puluhan tahun kita meminjam istilah dari biologi, terutama neurobiologi, dan pada akhirnya memang ada kesan seperti sekadar copy paste sambil meniru monyet
Terus terang, dua upaya teori universal ini justru terasa lebih menarik bagi saya
https://arxiv.org/abs/2510.12269
https://www.mdpi.com/1099-4300/28/3/332
Saya juga penasaran dengan kaitannya ke fuzzy logic
Jaringan saraf terlihat seperti bernalar dengan cara yang samar, tetapi saya tidak tahu persis secara formal itu seharusnya disebut apa
Selama bertahun-tahun ada upaya untuk memformalkan fuzzy reasoning, tetapi sekarang tampaknya sudah tidak ada yang peduli
Rasanya bagi saya jaringan saraf dan transformer itu seperti OOP dalam ML
Sangat populer dan cukup ampuh dalam praktik, tetapi fondasinya masih kabur, dan terasa seperti mengekspresikan ulang hal yang sebenarnya sudah bisa diungkap sebelumnya dengan bahasa baru, hanya saja sulit menunjukkan tepatnya di mana keuntungan itu muncul
Saya belum selesai membaca paper-nya, tetapi tulisan ini benar-benar memikat dan terasa cukup penuh pertimbangan
Ada sangat banyak hal untuk dicerna, tetapi melihat semua ini dirangkum jadi satu terasa sangat menarik
Alasan deep learning bekerja baik pada level tinggi pada akhirnya adalah karena kemampuannya untuk terus belajar dari lebih banyak data lebih unggul daripada pendekatan lain
Namun tanpa jumlah data yang sangat besar yang sekarang tersedia, arsitekturnya mungkin tidak akan terlalu penting
Kalau dua sisi persamaan model-data tidak dijelaskan bersama, rasanya sulit membangun teori ilmiah yang kokoh untuk pertanyaan seperti mengapa model reasoning bisa menalar
Model adalah hasil gabungan antara arsitektur dan data pelatihan
Saat ini masalah ini terasa sama sulitnya dengan menjelaskan bagaimana manusia atau hewan mempelajari hal tertentu di tengah masukan data yang sangat besar
Pemahaman empiris kita mungkin akan membaik, tetapi akarnya belum tentu bisa direduksi kembali menjadi ilmu komputer
Menurut saya inti kompleksitas yang sesungguhnya lebih ada pada gigadataset daripada arsitektur
Teori menjadi sangat penting begitu kita perlu memprediksi mode kegagalan
Sistem pendukung keputusan yang biasanya cukup benar tetapi diam-diam gagal pada kasus tepi justru bisa lebih berbahaya daripada sistem yang lebih sederhana dengan batasan yang jelas
Memahami mekanisme bias membantu membedakan kapan model benar-benar yakin, dan kapan ia sekadar melakukan pattern matching
Perbedaan ini sangat penting terutama di lingkungan dengan taruhan besar