Potensi Kolmogorov-Arnold Network untuk Meningkatkan Pemahaman terhadap Jaringan Saraf

(quantamagazine.org)

1 poin oleh GN⁺ 2024-09-14 | 1 komentar | Bagikan ke WhatsApp

Kolmogorov-Arnold network (KAN), yang dipublikasikan pada April 2024, diajukan sebagai alternatif yang membuat cara kerja internal lebih mudah dibaca dibanding jaringan saraf berbasis MLP yang ada, dan pada kelompok masalah tertentu dapat melakukan hampir semua pekerjaan yang dilakukan jaringan saraf umum
KAN menempatkan fungsi nonlinier yang dapat dipelajari pada edge, alih-alih bobot numerik, untuk menyesuaikan output; struktur ini berakar pada teorema Kolmogorov-Arnold tahun 1957
Tim peneliti Ziming Liu dan Max Tegmark dari MIT, setelah mengalami keterbatasan KAN 2 lapis, mencoba struktur 3 lapis atau lebih, dan menunjukkan bahwa KAN 3 lapis dapat merepresentasikan fungsi yang tidak dapat direpresentasikan secara tepat oleh KAN 2 lapis
Dalam masalah teori simpul dan Anderson localization, KAN tidak hanya memberikan jawaban, tetapi juga menunjukkan rumus atau relasi terkait; ini berpotensi sangat berguna pada masalah ilmiah seperti fisika yang memiliki sedikit variabel
Penelitian lanjutan mengonfirmasi keunggulan KAN pada tugas interpretabilitas dan penyelesaian persamaan diferensial parsial, tetapi MLP lebih unggul pada computer vision dan pemrosesan audio; KAN 2.0 dirilis dalam bentuk yang meningkatkan kemudahan penggunaan

Black box MLP dan kemunculan KAN

Komponen dasar yang paling representatif dalam jaringan saraf modern adalah multilayer perceptron (MLP), yang menghasilkan performa kuat ketika diskalakan dengan dataset besar
Meski jaringan berbasis MLP sukses, manusia sulit memahami proses bagaimana kesimpulan dihasilkan, dan tidak mudah pula mengetahui apakah ada prinsip mendasar yang menjelaskan hasilnya
Pada April 2024, makalah KAN mengusulkan Kolmogorov-Arnold network (KAN), yang lebih transparan dan, pada kelompok masalah tertentu, dapat melakukan hampir semua hal yang dilakukan jaringan saraf umum
Alan Yuille dari Johns Hopkins University menilai KAN memiliki interpretabilitas yang lebih tinggi dan bisa sangat berguna untuk aplikasi ilmiah yang perlu mengekstrak aturan ilmiah dari data

Cara KAN menyesuaikan fungsi

Jaringan saraf umum menghubungkan lapisan neuron buatan atau node dengan edge, lalu menyesuaikan bobot setiap edge selama proses pembelajaran agar output semakin mendekati jawaban benar
Tujuan umum jaringan saraf adalah menemukan fungsi atau kurva matematis yang paling baik menghubungkan titik-titik data
- Jika memodelkan proses fisika, output fungsi diharapkan menjadi bentuk persamaan yang menjelaskan fisika, yaitu hukum fisika
MLP memiliki teorema matematika yang memberi tahu seberapa dekat ia dapat mendekati fungsi optimal yang mungkin; akibatnya, MLP tidak dapat merepresentasikan fungsi tersebut secara sempurna
KAN tidak menaruh bobot numerik sederhana pada edge, melainkan fungsi nonlinier yang dapat dipelajari
- Fungsi edge ini dapat merepresentasikan kurva yang lebih kompleks
- Fungsi tersebut dapat disetel lebih halus dibanding bobot numerik pada MLP

Teorema 1957 dan skeptisisme selama 35 tahun

Inti KAN berasal dari hasil matematika yang masing-masing dipublikasikan oleh Andrey Kolmogorov dan Vladimir Arnold pada 1957
- Isinya adalah bahwa satu fungsi matematika dengan banyak variabel dapat diubah menjadi kombinasi fungsi-fungsi satu variabel
Kendala pentingnya adalah fungsi satu variabel yang dihasilkan oleh teorema tersebut bisa jadi tidak mulus
- Fungsi itu bisa memiliki bagian tajam seperti puncak berbentuk V
- Agar jaringan dapat melengkung menyesuaikan nilai target selama pembelajaran, potongan sederhana satu variabel harus mulus
Makalah tahun 1989 oleh Tomaso Poggio dan lainnya dari MIT secara eksplisit menyatakan bahwa ide matematika inti KAN “tidak relevan dalam konteks jaringan untuk pembelajaran”
Ziming Liu dan Max Tegmark memperhatikan bahwa meskipun fungsi satu variabel tidak mulus, jaringan dapat mengaproksimasinya dengan fungsi mulus, dan sebagian besar fungsi yang ditemui dalam sains bersifat mulus
Karena perangkat lunak dan perangkat keras telah berkembang pesat sejak 1989, Liu mencoba kembali ide yang dulu tidak mendapat perhatian

Peralihan dari KAN 2 lapis ke KAN berlapis banyak

Selama sekitar satu minggu, Liu membuat prototipe KAN 2 lapis, bentuk paling sederhana, tetapi tidak memperoleh performa yang baik pada tugas terkait sains yang ditargetkan
KAN 2 lapis tampak cocok secara alami dengan struktur teorema Kolmogorov-Arnold yang membagi fungsi multivariabel menjadi himpunan fungsi internal dan eksternal
Tegmark mengusulkan untuk mencoba KAN dengan lebih dari 2 lapis, dan pendekatan ini membuahkan hasil
Tim peneliti membentuk kolaborasi bersama rekan-rekan dari MIT, California Institute of Technology, dan Northeastern University, yang mencakup matematikawan serta pakar bidang terapan
Dalam makalah April 2024, tim menunjukkan bahwa KAN 3 lapis dimungkinkan, dan menyajikan contoh di mana KAN 3 lapis secara tepat merepresentasikan fungsi yang tidak dapat direpresentasikan secara tepat oleh KAN 2 lapis
Setelah itu, mereka bereksperimen hingga 6 lapis dan memastikan bahwa semakin banyak lapisan, semakin kompleks fungsi output yang dapat disesuaikan

Interpretabilitas yang terlihat dalam masalah nyata

Teori simpul
- Pada 2021, tim DeepMind membuat MLP yang menerima berbagai sifat dari simpul tertentu sebagai input dan memprediksi sifat topologis simpul tersebut
- KAN baru mereproduksi capaian itu, sekaligus menunjukkan bagaimana sifat yang diprediksi berkaitan dengan sifat-sifat lain
- Liu menilai bagian ini sebagai sesuatu yang sama sekali tidak dapat dilakukan MLP
Anderson localization
- Masalah kedua terkait dengan fenomena Anderson localization dalam fisika materi terkondensasi
- Tujuannya adalah memprediksi batas tempat terjadinya transisi fase tertentu, dan menemukan rumus matematika yang menjelaskan proses tersebut
- MLP belum pernah berhasil melakukan tugas ini, sedangkan KAN milik tim peneliti berhasil melakukannya
- Tegmark melihat keunggulan terbesar KAN dan motivasi utama pengembangan terbaru sebagai interpretabilitas
- Ia menggambarkannya sebagai bentuk interpretabilitas ketika, setelah diberi data, jaringan menghasilkan rumus yang bisa ditulis di kaus
- Brice Ménard dari Johns Hopkins menilai bahwa jika suatu masalah benar-benar dijelaskan oleh persamaan sederhana, KAN cukup baik dalam menemukannya
- Namun, wilayah tempat KAN bekerja paling baik kemungkinan terbatas pada masalah dengan variabel persamaan yang sangat sedikit, seperti fisika

Penelitian lanjutan dan KAN 2.0

Makalah KAN oleh Liu dan Tegmark dikutip 75 kali hanya dalam sekitar 3 bulan, dan kelompok riset lain juga mulai meneliti KAN mereka sendiri
Makalah yang dipublikasikan online pada Juni 2024 oleh Yizheng Wang dan lainnya dari Tsinghua University menyatakan bahwa jaringan saraf berbasis Kolmogorov-Arnold (KINN) jauh mengungguli MLP dalam menyelesaikan persamaan diferensial parsial (PDE)
- Wang mengatakan bahwa PDE ada di seluruh bidang sains
Makalah Juli 2024 dari peneliti National University of Singapore menghasilkan temuan yang lebih beragam
- KAN lebih baik daripada MLP pada tugas terkait interpretabilitas
- Pada computer vision dan pemrosesan audio, MLP memberikan hasil yang lebih baik
- Pada pemrosesan bahasa alami dan tugas machine learning lain, kedua jaringan secara umum serupa
Liu menilai hasil seperti ini tidak mengejutkan
- Fokus awal penelitian KAN memang berada pada tugas terkait sains yang sangat memprioritaskan interpretabilitas
Pada Agustus 2024, Liu dan kolaboratornya merilis makalah KAN 2.0
- Liu menggambarkannya lebih dekat ke manual pengguna daripada makalah tradisional
- KAN 2.0 lebih mudah digunakan dan menyediakan alat perkalian serta fitur lain yang tidak ada pada model awal

Dari berpusat pada aplikasi menuju berpusat pada pemahaman

Liu dan para rekan penulisnya melihat KAN sebagai pendorong sains berbasis rasa ingin tahu, melampaui sekadar sarana untuk mencapai tujuan tertentu
Pendekatan yang lama dominan dalam machine learning adalah sains berpusat pada aplikasi
- Misalnya, ketika mengamati gerak benda langit, peneliti berorientasi aplikasi berfokus pada prediksi keadaan masa depan
- Peneliti berbasis rasa ingin tahu berupaya mengungkap fisika di balik gerak tersebut
Melalui KAN, peneliti tidak hanya mendapat bantuan untuk menyelesaikan masalah komputasi yang sulit, tetapi juga dapat memanfaatkan jaringan saraf dengan pemahaman itu sendiri sebagai tujuan

1 komentar

GN⁺ 2024-09-14

Opini Hacker News

Penulis utama KAN kemarin mengadakan sesi tutorial di MLCAD, sebuah konferensi yang membahas irisan antara desain perangkat keras/semikonduktor dan machine learning/deep learning
Untuk penggunaan seperti mendapatkan wawasan dan interpretasi terhadap sistem fisik, misalnya ekspresi simbolik, besaran kekal, dan simetri, ini terlihat sangat menarik dan cocok
Ini bisa berguna untuk sains dan matematika, tetapi dalam rekayasa, interpretabilitas seperti ini mungkin bukan tujuan utama machine learning/deep learning
Kemampuan untuk mempelajari tugas yang lebih sulit atau kapasitas pembelajarannya masih belum pasti, dan pemilihan fungsi basis yang dipakai untuk “aktivasi” KAN maupun struktur seperti apa yang sebaiknya ditempeli layer ini agar memberi manfaat juga masih belum banyak dieksplorasi
Sepertinya jika lebih banyak orang bereksperimen dengan KAN, akan muncul lebih banyak jawaban untuk pertanyaan-pertanyaan ini
- Ada presentasi dari penulis yang sama 2 bulan lalu: https://www.youtube.com/watch?v=FYYZZVV5vlY
- Penasaran apakah ada versi publik dari sesi itu
Menurut saya tidak mungkin
Fakta bahwa satu operasi internal bisa dipahami tidak berarti seluruh neural network menjadi bisa dipahami
Lihat saja decision tree yang jauh lebih sederhana; di buku teks biasanya diperkenalkan sebagai sistem yang bisa dipahami, yang mengambil keputusan satu fitur pada satu waktu dan menghasilkan output di daun
Itu benar ketika komputer masih lambat dan pohonnya kecil seperti era 90-an, tetapi sekarang decision tree besar dan random forest bisa membuat tree berisi jutaan node, dan yang seperti itu tidak dapat diinterpretasikan
Ada celah matematis mendasar dalam memahami sistem kompleks, dan itu tidak akan diselesaikan oleh satu jenis neural network lain
- Saya berpikir, “Apakah Newton bisa memakai ini untuk menemukan rumus gaya yang sedang ia analisis, misalnya gravitasi = g m_1 m_2 / d^2?”
  Dulu saya pernah bertanya kepada seorang profesor fisika apakah secara prinsip itu mungkin, dan ia bilang mungkin
  KAN tampaknya bisa menemukan rumus seperti ini ketika diberi data eksperimen, dan jika itu benar, saya rasa layak disebut interpretabilitas
- Mungkin saja rumus atau persamaan yang memungkinkan kita bernalar tentang sistem kompleks memang tidak ada sejak awal
  Untuk menalar kompleksitas, besar kemungkinan kita memang harus menjalankan kompleksitas itu apa adanya
- Secara umum setuju, dan pada model nonlinear yang cukup kompleks, saya rasa mengejar interpretabilitas itu sia-sia
  Meski begitu, saya justru akan terkejut jika suatu hari tidak muncul terobosan sukses di bidang dinamika nonlinear atau pembentukan pola
- Decision tree yang sangat kompleks pun masih dapat diinterpretasikan sampai tingkat tertentu
  Karena kita bisa menelusuri tree dan menjawab pertanyaan seperti “apakah hasilnya akan berbeda jika kondisi ini tidak benar?”
  Mungkin sulit menampung seluruh tree sekaligus di kepala, tetapi ketika perlu memahami jalur yang benar-benar dilewati, kita bisa menyelidikinya
- Banyak orang menyebut ensemble tree sebagai black box
  Menurut saya lebih tepat disebut kotak abu-abu atau kotak abu-abu gelap
  Jika mau, kita bisa menginterpretasikannya, tetapi siapa yang benar-benar ingin menelusuri semua 500 tree?
Algoritma penyederhanaan semi-otomatis yang disediakan dalam paper KAN tampaknya menyelesaikan masalah yang mirip dengan https://arxiv.org/pdf/2112.04035
Bedanya, ini bukan kompresor abstrak yang digeneralisasi, melainkan memiliki batasan tambahan bahwa tujuannya adalah interpretabilitas fungsi forward pass
Tidak juga
Pada masalah pencocokan fungsi yang sepele, KAN memungkinkan kita memvisualisasikan sejauh mana tiap fungsi basis berkontribusi ke layer berikutnya
Namun neural network yang dangkal dan sepele seperti ini hampir tidak perlu diintip sejak awal
Deep neural network tidak menjadi bisa dijelaskan dengan pendekatan ini
- Benar
  Saya tidak tahu apakah sesuatu dengan jutaan hingga miliaran parameter bisa menjadi “dapat dijelaskan” dengan cara yang kita inginkan
  Bayangkan sebuah fungsi multivariabel umum dengan miliaran suku dituliskan di papan tulis yang sangat besar; apakah kita benar-benar bisa memahami mengapa ia menghasilkan angka tertentu?
  KAN mungkin bisa memiliki parameter satu orde besaran lebih sedikit, tetapi masalah dasarnya tetap sama
Mungkin tidak langsung terkait dengan topik ini, tetapi ada hal yang membuat saya penasaran
Salah satu kekuatan neural network adalah memanfaatkan paralelisme besar yang disediakan GPU; apakah dengan hanya memakai bobot skalar kita justru menyisakan sumber daya komputasi yang tidak terpakai?
Bagaimana kalau memakai matriks fungsi alih-alih matriks bobot?
- Lebih tepat melihat neural network sebagai sesuatu yang memang sudah tersusun dari fungsi-fungsi
  Kumpulan node yang ditumpuk menjadi layer membentuk fungsi nonlinear yang kompleks
  Misalnya, neural network kecil 3 layer pun bisa dilatih untuk memodelkan fungsi spline kubik
  Bagian dalam fungsi dipelajari di setiap tahap, pada setiap penjumlahan dan perkalian
  Jumlah fungsi di dalam neural network bisa dianggap sebagai sebagian dari jumlah bobot, sehingga secara teoretis lebih fleksibel dan kuat daripada memodelkan fungsi yang lebih kompleks secara langsung
  Jika kita tahu fungsi yang tepat, kita mungkin bisa memodelkan MLP kecil dengan fungsi tetap tertentu untuk meningkatkan efisiensi pembelajaran, tetapi jika tidak hati-hati, performa juga bisa hilang
  Masalah utamanya adalah kita tidak tahu fungsi apa yang harus dipakai, dan menambahkan fungsi nonlinear bisa menimbulkan kesulitan baru dari sisi performa, presisi, inisialisasi, dan regularisasi
  Matematika linear itu mudah dan kuat serta sudah bisa memodelkan fungsi kompleks, tetapi matematika nonlinear juga bisa berguna, jadi tampaknya perlu penelitian lebih lanjut
- GPU dioptimalkan untuk matriks nilai floating-point, sehingga neural network saat ini menggunakan matriks berisi bobot skalar sebagai dasarnya
- Penjelasan itu sangat mirip dengan deep Gaussian process
- Memberi nonlinearitas pada tiap baris atau kolom bobot pada dasarnya adalah fungsi yang dapat dipelajari
Ini juga baru-baru ini dibahas di https://news.ycombinator.com/item?id=40219205
Dalam aplikasi sains, inti interpretabilitas ada pada symbolic regression
MLP tidak selalu bisa mengeluarkan persamaan untuk dataset tertentu, tetapi KAN bisa
- Setahu saya MLP adalah universal function approximator: https://en.wikipedia.org/wiki/Universal_approximation_theorem
Bisakah Anda menjelaskan apa tepatnya yang “tidak diketahui” dalam jaringan saraf?
Kita yang membuatnya, dan kita tahu ia tersusun dari apa serta bagaimana cara kerjanya
Kita memang tidak bisa memetakan satu per satu semua koneksi antar-node dalam “perceptron multilapis” ini, tetapi bukankah kita tahu bagaimana koneksi semacam itu terbentuk?
- LLM modern seperti GPT-4o pada dasarnya dapat memahami teks berenkode b64
  Kita juga punya algoritma untuk mendekode dan mengenkode teks b64, tetapi apakah GPT-4o menjalankan algoritma itu apa adanya?
  Apakah pelatihan mempelajari algoritma itu? Jelas tidak, atau setidaknya tidak sepenuhnya
  Sebab salah ketik b64 yang bagi algoritma kita akan membuat ekstraksi makna teks asli menjadi mustahil pun hampir tidak menjadi masalah bagi 4o
  Lalu bagaimana ia mendekode b64? Kita tidak tahu
  Kita sebenarnya tidak benar-benar “membuat” jaringan saraf; kita membuat strukturnya dan melatihnya
  Selain menyediakan data pelatihan, apa yang dipelajarinya berada di luar kendali langsung manusia
  Kecuali contoh mainan yang sepele, apa yang telah dipelajarinya sebagian besar tidak diketahui
  Kita tahu koneksi terbentuk, kita bisa melihat bobotnya, dan kita bisa melihat perkalian matriksnya
  Namun kita tidak tahu apa yang dilakukan perhitungan-perhitungan itu, atau apa maknanya
  Apakah alien yang bisa melihat C code sedang dieksekusi bisa dikatakan memahami kode tersebut?
- Kita tidak tahu apa arti setiap koneksi, atau informasi apa yang dienkode dalam setiap bobot
  Kita juga tidak tahu bagaimana perilakunya akan berubah jika masing-masing dari jutaan hingga triliunan bobot itu diubah
  Jika dibandingkan dengan kamus, pada kamus jelas informasi apa yang ada di tiap halaman dan tiap baris
- Dengan sedikit menyederhanakan detail, model menerapkan banyak fungsi berdimensi tinggi pada input, dan kita tidak tahu alasan mengapa fungsi-fungsi itu memecahkan masalah
  Mengurangi dimensi bobot menjadi nilai yang dapat dibaca manusia bukanlah hal sepele, dan banyak neuron saling berinteraksi dengan cara yang sulit diprediksi
  Riset interpretabilitas telah menghasilkan banyak temuan berguna dan visualisasi yang bagus[1][2], dan ada banyak upaya[3][4] untuk memahami Transformer, tetapi kita masih jauh dari mampu menjelaskan sepenuhnya model besar yang digunakan saat ini
  [1] - https://distill.pub/2018/building-blocks/
  [2] - https://distill.pub/2019/activation-atlas/
  [3] - https://transformer-circuits.pub/
  [4] - https://arxiv.org/pdf/2407.02646
- LLM bukanlah otak, tetapi otak adalah analogi yang berguna
  Sama seperti melihat seluruh neuron kita tidak berarti kita dapat memahami sepenuhnya bagaimana kita berpikir, LLM juga tidak bisa dipahami hanya dengan menganalisis komponen-komponen individualnya
  Menguraikan LLM mungkin lebih mudah daripada otak, tetapi bukan berarti mudah
- Kita tahu bagaimana koneksi terbentuk, dan bagaimana membuatnya terbentuk
  Namun kita tidak tahu mengapa pembentukan dengan cara spesifik seperti itu memecahkan masalah yang dihadapi
  Kini ungkapan ini pun tidak sepenuhnya tepat secara ketat
  Karena sudah banyak riset tentang apa yang terjadi di dalam black box
  Masalahnya, ia tidak pernah benar-benar menjadi black box sepenuhnya. Kita selalu bisa melihat bagian dalamnya, tetapi memahaminya yang sulit
  KAN membantu memindahkan sebagian dari itu ke formulasi matematis, dan membuat peta aktivasi atas data juga memberi wawasan serupa

Potensi Kolmogorov-Arnold Network untuk Meningkatkan Pemahaman terhadap Jaringan Saraf

Black box MLP dan kemunculan KAN

Cara KAN menyesuaikan fungsi

Teorema 1957 dan skeptisisme selama 35 tahun

Peralihan dari KAN 2 lapis ke KAN berlapis banyak

Interpretabilitas yang terlihat dalam masalah nyata

Teori simpul

Anderson localization

Penelitian lanjutan dan KAN 2.0

Dari berpusat pada aplikasi menuju berpusat pada pemahaman

Bacaan terkait

1 komentar

Opini Hacker News