24 poin oleh GN⁺ 2026-04-26 | 2 komentar | Bagikan ke WhatsApp
  • Sebuah makalah yang berargumen bahwa teori ilmiah untuk mengkarakterisasi sifat-sifat utama deep learning seperti proses pembelajaran, representasi tersembunyi, bobot akhir, dan performa sedang terbentuk
  • Mengajukan lima alur riset sebagai dasar utama: pengaturan idealisasi yang dapat dipecahkan, limit yang mudah ditangani, hukum matematika sederhana, teori hyperparameter, dan perilaku universal
  • Teori ini berfokus pada dinamika proses pembelajaran, menggambarkan statistik agregat yang kasar, dan menekankan prediksi kuantitatif yang dapat dipalsukan
  • Mengusulkan kerangka teori baru ini dengan nama "learning mechanics" sebagai dinamika proses pembelajaran
  • Hasil seperti deep linear network, NTK, serta pembedaan mean-field dan lazy-rich memungkinkan pembahasan kuantitatif tentang dinamika pembelajaran, generalisasi, feature learning, dan scaling law
  • Memprediksi hubungan simbiotik dengan sudut pandang statistik, information-theoretic, dan mechanistic interpretability, sekaligus meninjau arah masa depan teori deep learning

Klaim inti makalah

  • Sebuah teori ilmiah(scientific theory) yang mengkarakterisasi sifat dan statistik penting deep learning seperti proses pembelajaran, representasi tersembunyi, bobot akhir, dan performa sedang muncul
  • Dengan mensintesis arus utama riset teori deep learning yang sedang berlangsung, makalah ini mengidentifikasi lima arah penelitian yang mendukung keberadaan teori tersebut
    • (a) pengaturan idealisasi yang dapat dipecahkan(solvable idealized settings): memberi intuisi tentang dinamika pembelajaran pada sistem realistis
    • (b) limit yang mudah ditangani(tractable limits): menyingkap wawasan tentang fenomena pembelajaran yang mendasar
    • (c) hukum matematika sederhana(simple mathematical laws): menangkap observabel makroskopik penting(macroscopic observables)
    • (d) teori hyperparameter(theories of hyperparameters): memisahkan hyperparameter dari sisa proses pembelajaran sehingga menyisakan sistem yang lebih sederhana
    • (e) perilaku universal(universal behaviors): melalui fenomena yang dibagikan lintas sistem dan pengaturan, memperjelas fenomena mana yang memerlukan penjelasan
  • Teori yang sedang muncul ini paling tepat dipandang sebagai dinamika proses pembelajaran, dan penulis mengusulkan nama "learning mechanics"
  • Membahas hubungan dengan pendekatan lain untuk membangun teori deep learning, seperti sudut pandang statistik(statistical) dan information-theoretic
  • Secara khusus memprediksi hubungan simbiotik(symbiotic relationship) antara learning mechanics dan mechanistic interpretability

Pendahuluan

  • Deep learning sangat kuat, tetapi masih belum memiliki kerangka ilmiah terpadu yang menjelaskan cara kerja internalnya
    • Jaringan saraf menunjukkan performa superhuman di berbagai tugas, tetapi belum ada teori terpadu tentang mengapa sistem ini bekerja demikian dan bagaimana performa itu muncul
    • Cara pelatihan di dunia nyata pun masih sangat bergantung pada trial and error alih-alih first principles, dan teori masih berperan terbatas dalam praktik deep learning sehari-hari
  • Memasuki era large language model dan diffusion model, misterinya makin dalam, tetapi teori ilmiah deep learning sebenarnya mulai terbentuk dan bentuknya lebih dekat ke mechanics dari proses pembelajaran
  • Fokus teori deep learning telah berubah seiring waktu
    • Pada fase awal, fokus utamanya adalah fungsi apa yang dapat direpresentasikan model dan bagaimana model belajar dari data
    • Setelah itu fokus bergeser ke kapan model dapat melakukan generalisasi pada sampel berhingga, sehingga berkembang classical learning theory, computational learning theory, teori PAC, dan teori optimisasi klasik
    • Pada saat yang sama, tradisi statistical physics of machine learning yang membahas perilaku rata-rata model sederhana juga ikut terbentuk
  • Jaringan multilapis, backpropagation, serta pembesaran skala data dan sumber daya komputasi mengungkap keterbatasan teori lama
    • Jaringan saraf memiliki struktur non-convex dan overparameterized, berbeda dari model sederhana dan convex yang ditangani dengan baik oleh teori klasik
    • Sistem ini belajar bukan hanya kesalahan pelatihan yang rendah, tetapi juga representasi internal yang terstruktur, dan memperlihatkan regularitas lintas tugas serta skala
    Iklan
  • Perubahan ini mendorong teori deep learning berpindah dari tahap yang secara matematis menanyakan apa yang mungkin, ke tahap ilmiah yang mendeskripsikan dan memprediksi perilaku sistem empiris yang kompleks
    • Karena itu dibutuhkan pendekatan ilmiah yang merangkul observasi empiris, mencari prinsip pemersatu, dan mengidentifikasi pola yang berulang
    • Ke depan, jalurnya dipandang lebih mirip proses pendewasaan sebuah bidang ilmu daripada perkembangan murni bidang matematika

Apa itu learning mechanics

  • Pembelajaran jaringan saraf dapat dipandang mirip dengan mechanics yang menggambarkan benda bergerak di ruang dan waktu
    • Seperti benda yang bergerak terus-menerus dalam ruang fisik karena gaya, model bergerak di dalam parameter space melalui pembaruan diskret
    • Seperti gaya dalam fisika yang muncul dari interaksi antar-komponen sistem, dalam deep learning pembelajaran dibentuk oleh interaksi antara parameter, dataset, tugas, dan aturan belajar
  • Ada pula korespondensi antara medan dalam fisika dan gradient dalam deep learning
    • Sebagaimana sistem fisik menetap pada titik minimum lokal dari potential yang ditentukan oleh interaksi internal dan kendala eksternal, jaringan saraf juga konvergen ke titik minimum lokal pada loss landscape yang dibentuk oleh arsitektur dan data pelatihan
  • Analogi ini bukan sekadar retorika, tetapi juga selaras dengan arus riset yang sedang berlangsung
    • Seperti berbagai cabang mechanics yang memanfaatkan pengaturan yang dapat dianalisis, limit yang disederhanakan, statistik ringkasan, analisis parameter sistem, dan fenomena universal, learning mechanics menggunakan alat yang sama
    • Khususnya seperti continuum mechanics dan statistical mechanics yang menangani banyak elemen saling berinteraksi, deep learning juga efektif dijelaskan melalui statistik pada level yang diperbesar ketimbang tiap elemen satu per satu
  • Program riset ini dapat disatukan dengan nama learning mechanics

7 syarat yang dibutuhkan untuk learning mechanics

  • Fundamentalitas

    • Pelatihan jaringan saraf harus dikembangkan secara logis mulai dari first principles
    • Asumsi tentang bobot, dinamika, dan performa boleh dipakai sebagai alat pada tahap antara, tetapi pada akhirnya semuanya juga harus dijelaskan dari first principles
    Iklan
  • Sifat matematis

    • Harus menghasilkan pernyataan kuantitatif yang tidak ambigu tentang sifat-sifat penting jaringan saraf
    • Deskripsi kualitatif saja tidak cukup untuk membentuk mechanics
  • Daya prediksi

    • Harus mengajukan klaim yang dapat diverifikasi dengan pengukuran empiris yang sederhana dan dapat diulang
    • Karena kontrol eksperimen atas sistem ini sangat baik, kemajuan utama harus bisa diuji secara jelas lewat eksperimen
  • Cakupan

    • Harus menghubungkan proses pelatihan, representasi internal, dan bobot akhir dalam satu gambaran
    • Bukan berusaha memuat semua detail, melainkan memilih resolusi yang tepat yang tetap memberi wawasan meski mengorbankan sebagian detail
  • Intuitivitas

    • Harus memprioritaskan wawasan yang sederhana dan mencerahkan dibanding kerumitan teknis
    • Harus menjadi teori yang memberi kepuasan karena menyingkap misteri deep learning
  • Kegunaan

    • Seperti fisika menjadi dasar bagi cabang-cabang rekayasa lain, teori ini harus menjadi landasan ilmiah bagi deep learning terapan
    • Tujuan konkretnya mencakup pengurangan hyperparameter tuning, alat prediksi untuk dataset design, dan landasan ketat bagi AI safety
  • Kerendahan hati

    • Harus jelas tentang apa yang bisa dijelaskan dengan baik dan apa yang tidak bisa dijelaskan
    • Mechanics yang dapat diterapkan pada deep learning realistis pun bisa runtuh pada kasus-kasus khusus yang kecil dan dirancang manual, dan ini dipandang sebagai harga untuk memperoleh gambaran sederhana pada wilayah yang diminati
    Iklan

Mengapa learning mechanics penting

  • Alasan ilmiah

    • Keberhasilan rekayasa jaringan saraf besar menunjukkan bahwa sistem ini memanfaatkan prinsip mendalam tentang pembelajaran dan representasi yang belum dipahami
    • Dicontohkan preseden ketika teknologi lebih dulu hadir sebelum teori, seperti steam engine dan thermodynamics, serta pesawat terbang dan aerodynamic theory
    • Prinsip pembelajaran jaringan saraf buatan juga bisa memberi terang bagi pemahaman tentang biological intelligence, dengan implikasi bagi neuroscience dan cognitive science
  • Alasan praktis

    • Teori deep learning yang matang dapat menuntun desain model, optimisasi, scaling, dan deployment dengan prinsip yang lebih dapat diandalkan
    • Di beberapa area, teori sudah mulai berperan
      • empirical scaling laws
      • resep matematis untuk scaling hyperparameter
      • optimizer dan metode data attribution yang dirancang dengan motivasi teoretis
    • Teori yang lebih dalam dan lengkap dapat memberi lebih banyak panduan seperti ini, sekaligus membuatnya lebih tajam dan lebih prediktif
  • Alasan terkait keselamatan

    • Untuk mendeskripsikan, mengkarakterisasi, dan mengendalikan sistem AI yang makin kuat, kita harus mampu memperjelas variabel, mekanisme, dan prinsip organisasinya
    • Sulit mengatur teknologi yang tidak bisa dideskripsikan dengan jelas, dan fundamental theory dapat memberi kejernihan yang dibutuhkan untuk reliability, oversight, dan control
    • Secara khusus diajukan kemungkinan kontribusi pada AI safety dengan cara yang mendukung mechanistic interpretability

Bukti bahwa learning mechanics sedang muncul

  • Komponen inti deep learning bersifat eksplisit dan dapat diukur
    • Arsitektur diberikan sebagai jaringan saraf f(x; θ) yang didefinisikan sebagai komposisi transformasi linear dan non-linear sederhana
    • Data diberikan sebagai himpunan sampel D = {(xi, yi)} dari distribusi pembangkitan data yang tidak diketahui
    • Tugas didefinisikan sebagai fungsi objektif L(θ) yang mengukur performa pada dataset
    • Aturan belajar dijelaskan melalui pembaruan berbasis gradient seperti θ(t+1) = θ(t) −η∇L(θ(t)), bersama inisialisasi dan hyperparameter optimisasi
    Iklan
  • Hampir tidak ada yang tersembunyi dalam proses pembelajarannya
    • Tidak seperti banyak sistem kompleks lain, deep learning secara langsung memperlihatkan equations of motion yang mengatur dinamikanya
    • Semua weight, activation, gradient, dan loss dapat dicatat, dan dari sana statistik apa pun bisa dibentuk
    • Perancangan eksperimen, reproduksi, dan verifikasi mudah dilakukan sehingga cocok untuk menemukan regularitas empiris dan menguji prediksi teori secara ketat
  • Meski demikian, tantangan utamanya bukan ketertutupan melainkan kompleksitas
    • Interaksi antara architecture, data, task, dan learning rule menghasilkan dinamika pembelajaran yang non-linear, terkopel, dan berdimensi tinggi
    • Sistem sensitif terhadap pilihan hyperparameter, dan distribusi data itu sendiri juga sulit dikarakterisasi secara sederhana
  • Meski begitu, di balik kompleksitas ini terdapat regularitas, dan diajukan lima observasi yang mendukungnya
    • (a) pengaturan idealisasi yang dapat dipecahkan(solvable idealized settings)
    • (b) limit yang mudah ditangani(tractable limits)
    • (c) hukum matematika sederhana(simple mathematical laws)
    • (d) teori hyperparameter(theories of hyperparameters)
    • (e) perilaku universal(universal behaviors)

=== Isi makalah dihilangkan ===

  • Materi pengantar tambahan, perspektif, dan pertanyaan terbuka tersedia di learningmechanics.pub
  • Makalah ini terdiri dari 41 halaman

2 komentar

 
chickendreamtree 2026-05-06

Maksudnya mau melihat dan memecahkannya dari sudut pandang dinamika, tapi saya sendiri ragu sejak awal apakah mereka bisa membuat persamaan yang memungkinkan dicari solusi umumnya.

 
GN⁺ 2026-04-26
Opini Hacker News
  • Dari sudut pandang orang yang bekerja di bidang ini, tulisan ini merangkum topik penelitian yang paling banyak dibahas saat ini dengan cukup baik
    Terutama bagian open problems di akhir yang pada dasarnya sudah menyinggung hampir semua arah riset inti, jadi itulah bagian yang paling berguna
    Melihat banyaknya skeptisisme di komentar, agak disayangkan karena itu menunjukkan bahwa riset seperti ini nyaris tidak tersampaikan ke publik
    Memang masih belum banyak mekanisme untuk menurunkan desain jaringan optimal secara langsung secara matematis, tetapi itu biasanya karena eksperimen bergerak lebih cepat daripada teori sehingga penjelasan sering datang belakangan
    Meski begitu, untuk pertanyaan mengapa jaringan saraf bekerja lebih baik daripada model lain, kini kita sudah cukup dekat dengan jawaban yang solid
    Masalahnya, ternyata itu bukan pertanyaan yang sebenarnya paling ingin diketahui orang, jadi sekarang rasanya kita sudah sampai pada tahap menentukan apa pertanyaan berikutnya yang perlu diajukan

    • Menurut saya, sekarang ini adalah masa yang agak aneh ketika landasan teori informasi untuk deep learning sedang mengeras dengan cepat
      Pertanyaan tentang mengapa ia bekerja pada umumnya sudah terjawab, dan inti persoalannya adalah meminimalkan kehilangan informasi yang tidak dapat dibalik secara efisien relatif terhadap noise floor
      Matematika sebenarnya menunjukkan jalan yang lebih efisien, tetapi industri selama beberapa tahun hanya terus mendorong model yang lebih besar, sehingga banyak pemborosan
      Model 70B yang dibuat dengan baik pun sebenarnya bisa dijalankan sekitar 16GB tanpa kehilangan kemampuan dan bahkan tetap bisa terus dilatih, tetapi pendanaan terus terkonsentrasi pada yang lebih besar
      Kini industri telah menggeser tujuan ke Agency dan Long-horizon Persistence, dan transisi dari kalkulator prediktif ke sistem yang bertahan lama lebih dekat ke persoalan termodinamika nonequilibrium
      Ada matematika dan hukum yang berlaku sama persis untuk AI, dan prinsip bagaimana sinyal bertahan di dalam model serta bagaimana agen bertahan pada dasarnya tersambung oleh matematika yang sama
      Bidang keahlian saya juga tepat di soal persistensi ini, dan jujur kadang membuat frustrasi melihat bidang AI susah payah mempelajari ulang prinsip pertama yang sebenarnya sudah dipahami di bidang lain
      Karena itu saya menulis dan membagikan dokumen yang menjelaskan bagaimana matematika ini bekerja dan bagaimana menerapkannya ke masing-masing domain; setelah membacanya, orang bisa tahu secara tepat apa yang harus diperbaiki agar persistensi meningkat, alih-alih sekadar menebak-nebak
      Pertanyaan seperti seberapa banyak jam sebuah model bisa dibuat bekerja sampai terasa lucu, karena ada pertanyaan lain yang jauh lebih mendasar
    • Kalau itu benar, itu kabar yang sangat menggembirakan
      Dari sudut pandang klasik, efek overparameterization atau struktur jaringan saraf lain memang terus terang sulit diterima
      Saya mengakui double descent memang bekerja secara empiris, tetapi secara naluriah rasanya seharusnya tidak begitu
      Sebagai orang yang menyukai Elements karya Hastie dkk., bahkan dari bias-variance tradeoff saja rasanya hasil seperti itu sulit muncul
      Ini sudah bertahun-tahun mengganjal pikiran saya, jadi kalau memang ada kemajuan di sini, itu akan sangat berguna bahkan secara filosofis
      Saya baru membaca pendahuluannya, tetapi tulisannya bagus, dan program riset seperti ini pantas didukung
      Ini terasa mirip dengan bagging atau boosting yang pada awalnya berhasil lebih dulu secara empiris sebelum ada teori
    • Saya selalu heran melihat begitu banyak orang yang, saat membahas riset untuk memahami jaringan saraf, langsung memvonis sejak awal bahwa karena ini black box, maka mustahil dipahami
      Mungkin ini banyak dipengaruhi oleh cara jaringan saraf digambarkan seolah berada di kutub berlawanan dari linear regression yang bisa ditafsirkan secara klasik
      Karena rekayasa bergerak terlalu cepat, ada juga suasana bahwa bila riset tidak langsung menghasilkan dampak, orang tidak mau menunggu
      Bahkan di kalangan peneliti interpretabilitas pun, banyak yang tampak terlalu cepat menyerah jika hasil yang mencolok tidak segera muncul
    • Pertanyaan mengapa jaringan saraf bekerja lebih baik daripada model lain itu menarik
      Kalau ada bahan rujukan yang juga cocok untuk nonspesialis, saya ingin tahu
    • Saya tidak yakin bisa ditegaskan bahwa jaringan saraf benar-benar lebih baik daripada model lain
      Memang benar ia bisa menangani kumpulan masalah yang jauh lebih luas, seperti citra yang sulit untuk ML tradisional, tetapi sejauh yang saya tahu, di tempat yang bisa dibandingkan secara setara, gradient boosting kadang justru lebih baik
  • Bagian yang saya tidak pahami adalah ini
    Gagasan jaringan saraf sudah ada sejak puluhan tahun lalu, tetapi lama tidak terlalu mendapat perhatian, lalu setelah Attention Is All You Need pada 2017 deep learning meledak besar
    Saya paham GPU mempercepat deep learning, tetapi konsep transformer sendiri terasa seperti sesuatu yang seharusnya bisa dicoba lebih awal dengan perangkat keras yang jauh lebih lambat

    • Titik balik yang sebenarnya adalah AlexNet pada 2012
      Seperti di https://en.wikipedia.org/wiki/AlexNet, AlexNet menunjukkan lonjakan performa yang benar-benar berbeda skala dalam kompetisi klasifikasi ImageNet, dan setelah itu laboratorium riset citra ML besar beralih total ke deep CNN
      Dalam beberapa tahun, pendekatan lain hampir menghilang dari kompetisi citra SOTA, lalu jaringan saraf dalam menguasai bidang ML lain juga
      Penjelasan umum pada akhirnya adalah kombinasi dua hal
      Pertama, kapasitas komputasi yang jauh lebih besar dibanding masa lalu, dan kedua, dataset berkualitas tinggi yang jauh lebih besar seperti ImageNet yang dipoles dan diberi label secara manual
      attention sangat berguna terutama untuk mempelajari relasi kompleks pada sekuens seperti teks yang struktur urutannya relatif bebas, tetapi sekarang banyak orang melihat arsitektur bukan sebagai esensi dari pembelajaran itu sendiri, melainkan lebih sebagai tradeoff pilihan saat data dan komputasi masih kurang
      Pada akhirnya, seperti di https://en.wikipedia.org/wiki/Bitter_lesson, lebih banyak komputasi dan lebih banyak data sering mengalahkan model yang tampak lebih cerdas tetapi tidak bisa diskalakan dengan baik
      Manusia punya kira-kira 10^11 neuron, anjing 10^9, tikus sekitar 10^7, dan yang mencolok di sini adalah semuanya angka yang sangat besar
      Bahkan kecerdasan terbatas seperti tikus pun membutuhkan ratusan juta neuron, dan kecerdasan tampaknya baru muncul setelah melewati ambang kapasitas komputasi tertentu
      Mungkin karena untuk menangani kompleksitas inheren dari lingkungan pembelajaran yang rumit, dibutuhkan banyak parameter
      Sebaliknya, pada masalah yang sederhana atau terstruktur, ada banyak teknik yang bekerja baik dengan sedikit parameter, atau bahkan terbukti optimal
      Yang kita maksud dengan pembelajaran dan kecerdasan biasanya mengasumsikan lingkungan yang kompleks, dan kompleksitas seperti itu pada dasarnya menuntut jumlah parameter yang besar
    • Kemenangan besar deep learning yang lebih awal sebenarnya adalah pengenalan gambar oleh AlexNet pada 2012
      Itu mendominasi kompetisi, dan dalam beberapa tahun pekerjaan citra pada dasarnya menjadikan pendekatan itu standar
      Seingat saya Jeremy Howard yang menulis sekitar 2017, menanyakan kapan transfer learning yang di NLP bisa bekerja sebaik convnet di citra akan muncul
      Paper attention pada tahun itu tidak langsung menguasai dunia, dan saat itu perangkat keras juga masih kurang, juga belum ada konsensus bahwa skala menyelesaikan segalanya
      Butuh hampir 5 tahun lagi sampai GPT-3 muncul, dan baru saat itulah gelombang sekarang dimulai
      Selain itu, orang sering meremehkan skala compute yang dibutuhkan untuk melatih monster ini; dengan satu prosesor tunggal 1GHz, melatih model kelas seperti ini akan memakan kira-kira 100 juta tahun
      Model setingkat GPT-3 pun memakai sekitar 25 ribu GPU selama berbulan-bulan, dan dengan memori GPU yang lemah 10 tahun lalu, pelatihan transformer besar pada dasarnya mustahil
      k80 lama hanya sekitar 12GB, sedangkan H100/H200 sekarang berada di kelas ratusan GB, jadi transformer besar memang secara praktis belum bisa dibangun sebelum awal 2020-an
      Saya juga jadi ingat para gamer di akhir 2010-an yang mengeluh harga GPU melonjak gara-gara ML
    • Seperti yang sudah dikatakan orang lain, ledakan minat dimulai ketika deep convolutional networks berhasil pada masalah citra
      Yang menarik, sebelum itu jaringan saraf diperlakukan seolah tidak terlalu penting
      Saat saya mengambil kuliah terkait sekitar tahun 2000 pun suasananya umumnya seperti itu
      Agar minat itu menyala lagi, tampaknya memang dibutuhkan gabungan data latih yang sangat besar seperti ImageNet dan prosesor yang cepat
      Setelah itu, perbaikan lanjutan pada arsitektur tertentu terus berdatangan dan efeknya membesar seperti bola salju
      Di komunitas yang lebih luas, AlexNet terlihat sebagai titik percabangan besar, tetapi di dalam akademia, arah angin sebenarnya sudah berubah 2~3 tahun sebelumnya
      Saya mulai melihat presentasi tentang jaringan saraf tidak lagi diabaikan di workshop sekitar 2008~09
    • Hal serupa juga pernah terjadi pada matriks
      Matriks sudah ada sejak 400 tahun lalu, tetapi aljabar linear, terutama aljabar linear numerik, baru meledak setelah komputer muncul
      Dulu menyelesaikan sistem persamaan linear lewat teori minors adalah cara baku, tetapi setelah komputer hadir, teori seperti Gaussian elimination atau ruang Krylov berkembang pesat
    • Memang terasa konsep transformer sendiri bisa dipakai lebih awal dengan perangkat keras yang lebih lambat, tetapi pada skala kecil hasilnya tidak akan sama
      Orang mungkin sudah membayangkannya, tetapi tidak punya perangkat keras untuk benar-benar mewujudkannya
      Kalau disederhanakan, LLM pada akhirnya hanyalah transformer yang dipasangi data dalam jumlah sangat besar, dan untuk benar-benar bisa melatih data sebesar itu, perangkat keras yang cukup kuat mutlak diperlukan
  • Menarik bahwa kita mencoba memahami satu alat belajar, yaitu otak, dengan alat belajar lain
    SGD sudah bekerja cukup baik, dan walau dibuat beberapa kali lebih baik pun, itu belum tentu menyelesaikan pertanyaan mendasar tentang apa sebenarnya yang dilakukan black box ini
    Cara belajar dan apa yang sebenarnya dilakukan model adalah dua persoalan berbeda, dan otak kita sendiri juga black box dalam banyak hal
    Karena itu terasa perlu ada penghubung yang lebih kuat antara riset mekanisme pembelajaran, psikologi, dan gagasan filosofis tentang hakikat pikiran serta bahasa

  • Ini memberi harapan, tetapi menurut saya judulnya agak berlebihan
    Mungkin yang lebih tepat adalah sesuatu seperti titik serang untuk memahami apa sebenarnya yang dilakukan deep learning, tetapi itu tentu kurang menarik perhatian
    Jika ini bisa mengarah pada cara mengukur kapan sistem deep learning menghasilkan halusinasi, nilainya akan luar biasa besar
    Sampai itu tercapai, sistem deep learning hanya bisa dipakai secara terbatas pada tugas-tugas yang risikonya kecil bila ia mengeluarkan omong kosong

    • Menurut saya, yang paling menghambat bidang ini adalah mnemonik penuh harapan dan antropomorfisasi yang ditempelkan pada LLM
      Misalnya, istilah hallucination itu sendiri memaksakan makna manusiawi pada keluaran LLM
      Jika dilihat dari prinsip kerja matematis yang sebenarnya, halusinasi hanyalah satu keluaran lagi, dan tidak ada batas tegas yang terdefinisi antara itu dan keluaran lain
    • Mengukur kapan sistem deep learning mulai menghasilkan halusinasi benar-benar masalah yang layak dipecahkan
      Itu juga arah riset utama saya, jadi mungkin saya bias
      Pendekatan yang umum adalah OOD detection, tetapi saya sudah lama merasa bahwa perumusan masalahnya sendiri tidak stabil
      Karena itu bersama rekan-rekan saya mencoba pendekatan yang lebih mendasar lewat pengukuran misspecification model, tetapi biaya komputasinya terlalu besar sehingga untuk saat ini masih dekat ke topik niche
      Ke mana pun arahnya, tampaknya masih perlu waktu sebelum ada terobosan
  • Ini membuat saya merasa ada kemiripan konseptual dengan vibecoding
    Kita bikin sesuatu dulu sampai bekerja, lalu memahami mengapa itu berhasil dan bagaimana cara kerjanya adalah pekerjaan lain yang terpisah

  • Tunggu, jadi kita membuat sesuatu yang bahkan belum benar-benar kita pahami dan belum bisa kita jelaskan dengan baik, lalu sekarang menyebutnya science?
    Selama puluhan tahun kita meminjam istilah dari biologi, terutama neurobiologi, dan pada akhirnya memang ada kesan seperti sekadar copy paste sambil meniru monyet

  • Terus terang, dua upaya teori universal ini justru terasa lebih menarik bagi saya
    https://arxiv.org/abs/2510.12269
    https://www.mdpi.com/1099-4300/28/3/332
    Saya juga penasaran dengan kaitannya ke fuzzy logic
    Jaringan saraf terlihat seperti bernalar dengan cara yang samar, tetapi saya tidak tahu persis secara formal itu seharusnya disebut apa
    Selama bertahun-tahun ada upaya untuk memformalkan fuzzy reasoning, tetapi sekarang tampaknya sudah tidak ada yang peduli
    Rasanya bagi saya jaringan saraf dan transformer itu seperti OOP dalam ML
    Sangat populer dan cukup ampuh dalam praktik, tetapi fondasinya masih kabur, dan terasa seperti mengekspresikan ulang hal yang sebenarnya sudah bisa diungkap sebelumnya dengan bahasa baru, hanya saja sulit menunjukkan tepatnya di mana keuntungan itu muncul

  • Saya belum selesai membaca paper-nya, tetapi tulisan ini benar-benar memikat dan terasa cukup penuh pertimbangan
    Ada sangat banyak hal untuk dicerna, tetapi melihat semua ini dirangkum jadi satu terasa sangat menarik

  • Alasan deep learning bekerja baik pada level tinggi pada akhirnya adalah karena kemampuannya untuk terus belajar dari lebih banyak data lebih unggul daripada pendekatan lain
    Namun tanpa jumlah data yang sangat besar yang sekarang tersedia, arsitekturnya mungkin tidak akan terlalu penting
    Kalau dua sisi persamaan model-data tidak dijelaskan bersama, rasanya sulit membangun teori ilmiah yang kokoh untuk pertanyaan seperti mengapa model reasoning bisa menalar
    Model adalah hasil gabungan antara arsitektur dan data pelatihan
    Saat ini masalah ini terasa sama sulitnya dengan menjelaskan bagaimana manusia atau hewan mempelajari hal tertentu di tengah masukan data yang sangat besar
    Pemahaman empiris kita mungkin akan membaik, tetapi akarnya belum tentu bisa direduksi kembali menjadi ilmu komputer
    Menurut saya inti kompleksitas yang sesungguhnya lebih ada pada gigadataset daripada arsitektur

  • Teori menjadi sangat penting begitu kita perlu memprediksi mode kegagalan
    Sistem pendukung keputusan yang biasanya cukup benar tetapi diam-diam gagal pada kasus tepi justru bisa lebih berbahaya daripada sistem yang lebih sederhana dengan batasan yang jelas
    Memahami mekanisme bias membantu membedakan kapan model benar-benar yakin, dan kapan ia sekadar melakukan pattern matching
    Perbedaan ini sangat penting terutama di lingkungan dengan taruhan besar