2 poin oleh GN⁺ 2024-05-02 | 1 komentar | Bagikan ke WhatsApp

Pengenalan Jaringan Kolmogorov-Arnold (KANs)

Definisi dan karakteristik KAN

  • Jaringan Kolmogorov-Arnold (KANs) merupakan alternatif yang menjanjikan dibandingkan Multi-Layer Perceptrons (MLPs).
  • KANs memiliki dasar matematis yang kuat seperti halnya MLPs
    • MLPs didasarkan pada universal approximation theorem.
    • KANs didasarkan pada Kolmogorov-Arnold representation theorem.
  • KANs dan MLPs bersifat dual
    • KANs memiliki fungsi aktivasi (activation function) di tepi (edge).
    • MLPs memiliki fungsi aktivasi (activation function) di simpul (node).
  • Dengan perubahan sederhana ini, KANs menunjukkan performa yang lebih baik dari MLPs dalam aspek akurasi (accuracy) dan interpretabilitas (interpretability), terkadang jauh lebih baik.

Akurasi KAN

  • KANs menunjukkan scaling yang lebih cepat daripada MLPs.
  • KANs mencapai akurasi lebih baik daripada MLPs dengan parameter yang lebih sedikit.
  • Contoh
    • Pemfitan formula simbolik
    • Pemfitan fungsi khusus
    • Pemecahan persamaan diferensial parsial (PDE)
    • Menghindari catastrophic forgetting

Interpretabilitas KAN

  • KANs dapat divisualisasikan secara intuitif.
  • KANs menawarkan interpretabilitas dan interaktivitas yang tidak dapat diberikan MLPs.
  • Penggunaan KANs berpotensi menemukan hukum-hukum ilmiah baru.
  • Contoh
    • Interpretasi formula simbolik
    • Penemuan hukum matematis mengenai knot
    • Penemuan hukum fisika Anderson localization
    • Interpretasi proses pelatihan KAN 3-lapis

Cara instalasi

  • pykan bisa diinstal melalui PyPI atau GitHub
  • Menyediakan metode instalasi melalui GitHub
  • Menyediakan metode instalasi melalui PyPI
  • Menyebutkan dependensi dan cara menginstalnya

Kebutuhan komputasi

  • Contoh dalam tutorial umumnya dapat dijalankan di CPU tunggal dalam waktu kurang dari 10 menit.
  • Semua contoh dalam paper dapat dijalankan di CPU tunggal dalam waktu kurang dari satu hari.
  • Pelatihan KAN untuk PDE adalah yang paling mahal secara komputasi dan dapat memakan waktu beberapa jam hingga beberapa hari di CPU tunggal.
  • Melakukan parameter sweep untuk memperoleh Pareto Frontier dengan melatih model menggunakan CPU.
  • Untuk skala kerja besar, disarankan menggunakan GPU.

Dokumentasi

  • Dokumentasi dapat ditemukan pada URL yang ditautkan.

Tutorial

  • Quickstart: mulai dengan notebook hellokan.ipynb
  • Lebih banyak demo: di direktori tutorials, Anda dapat menemukan lebih banyak tutorial notebook.

Sitasi

  • Menyediakan cara untuk mengutip paper.

Kontak

  • Jika ada pertanyaan, Anda dapat menghubungi zmliu@mit.edu.

Pendapat GN⁺

  • KAN adalah arsitektur jaringan saraf yang menarik dengan landasan matematis dan keunggulan pada akurasi serta interpretabilitas sebagai alternatif untuk MLPs. Namun, masih terlihat sebagai penelitian awal, sehingga diperlukan verifikasi kinerja tambahan pada dataset berskala besar atau tugas yang kompleks.
  • Perbedaan utama adalah bahwa MLPs menempatkan fungsi aktivasi pada node, sedangkan KANs menempatkannya pada edge. Perlu analisis lebih lanjut tentang bagaimana perubahan ini memengaruhi struktur jaringan dan cara pelatihannya.
  • Interpretabilitas KAN dapat membantu menyelesaikan masalah black-box dalam AI, dan potensi penggunaannya untuk menemukan hukum ilmiah baru juga sangat menarik. Namun karena bidang AI yang dapat diinterpretasi sudah memiliki banyak penelitian berjalan, penting untuk menonjolkan keunggulan pendekatan yang benar-benar berbeda.
  • Contoh-contoh yang ditampilkan dalam paper ini terutama terbatas pada domain matematika/fisika, sehingga perlu penelitian lebih lanjut untuk melihat apakah KAN dapat menggantikan MLP di domain lain seperti gambar, bahasa alami, dan sebagainya.
  • Pendekatan serupa dengan KAN termasuk Capsule Networks dan Graph Neural Networks. Diperlukan studi komparatif dengan pendekatan ini untuk memverifikasi keunggulan khas KAN.

1 komentar

 
GN⁺ 2024-05-02
Komentar Hacker News
  • Seorang pengguna memperkenalkan implementasi sederhana dari ide di makalah menggunakan PyTorch. Intinya terdiri dari hanya beberapa baris kode, dan untuk menginterpolasi fungsi satu dimensi mereka memakai koefisien Fourier alih-alih spline. Ini menunjukkan daya representasi Kolmogorov-Arnold Network, yang mungkin lebih mudah konvergen dibanding versi spline dalam makalah, tetapi membutuhkan komputasi lebih banyak.

  • Pengguna lain berbagi hasil pengujian terhadap notebook Jupyter yang disediakan. Saat struktur jaringan di masalah klasifikasi diubah dari (2, 2) menjadi (2, 2, 2), generalisasi gagal, dan ketika ukuran data pelatihan diperbesar 100 kali, overfitting membaik tetapi loss pelatihan tidak turun di bawah 1e-2. Ia ingin melakukan eksperimen dengan contoh dan data yang lebih besar.

  • Dalam suasana yang lelah dengan peningkatan bertahap pada transformer akhir-akhir ini, riset ini dinilai memberi gagasan segar yang dapat meningkatkan daya ekspresif DNN tradisional. Masih perlu verifikasi lebih lanjut apakah peningkatan performa nyata benar-benar terjadi.

  • Belum jelas hasilnya pada skala besar dalam hal skalabilitas algoritme itu sendiri (apakah tetap dapat dilatih dengan baik dengan lebih banyak layer) dan kemungkinan pemanfaatan akselerasi perangkat keras (apakah struktur fungsi aktivasi per-bobot bisa memanfaatkan akselerasi perkalian matriks cepat). Pada skala kecil terlihat sifat yang menarik, tetapi apakah ini merupakan arsitektur yang tepat untuk tugas-tugas seperti ImageNet atau LLM masih perlu penelitian lanjutan.

  • Menarik bahwa jaringan Kolmogorov bisa merepresentasikan fungsi tak kontinu, tetapi sebelumnya ada keraguan tentang kelayakannya untuk penggunaan nyata. Repositori ini menunjukkan ada potensi kegunaan sampai batas tertentu.

  • Mungkin ini adalah opini tergesa-gesa, tetapi karena kombinasi linear dari B-spline menjadi B-spline orde lebih tinggi, ada pandangan bahwa ini mungkin sekadar fitting B-spline orde tinggi terhadap fungsi.

  • Preprint menganggap dimensi input 100 sebagai "high-dimensional", sementara kebanyakan masalah dengan dimensi 5 atau kurang merupakan profil tipikal lingkungan fisika inspiratif yang dipertimbangkan dalam ML. Pada standar saat ini, langkah selanjutnya kemungkinan besar adalah validasi performa pada MNIST yang dimensinya hanya 784, sangat kecil.

  • Kadang juga terasa seperti menyodorkan spline ke dalam decision tree.

  • Tampak sangat mirip secara konseptual dengan metode elemen hingga, dan menyenangkan menemukan pola kesamaan lintas disiplin seperti ini.