Thermodynamic Natural Gradient Descent

(arxiv.org)

1 poin oleh GN⁺ 2024-05-26 | 1 komentar | Bagikan ke WhatsApp

TNGD adalah metode pelatihan neural network yang menjalankan natural gradient descent (NGD) dalam loop hibrida antara komputer termodinamika analog dan GPU, untuk mengurangi beban komputasi optimisasi orde kedua
Metode pelatihan orde kedua memanfaatkan informasi kelengkungan pada lanskap loss sehingga memiliki karakteristik konvergensi yang baik, tetapi pada hardware digital sulit dipakai untuk pelatihan skala besar karena biaya menghitung matriks informasi Fisher dan menyelesaikan sistem linear
Aturan pembaruan parameter NGD diimplementasikan dengan memanfaatkan sifat termodinamika dari sistem analog pada keadaan setimbang dan proses Ornstein–Uhlenbeck fisik
Pengguna tetap mempertahankan arsitektur model, sementara komputer analog hanya mempercepat pelatihan; ini berbeda dari sebagian pendekatan akselerasi inferensi analog yang mengunci model pada hardware
Dalam eksperimen numerik, metode ini menunjukkan hasil yang lebih baik daripada metode pelatihan digital orde pertama dan orde kedua mutakhir pada klasifikasi dan fine-tuning model bahasa, dan jika paralelisasi memadai, waktu eksekusi per iterasi dapat mendekati Adam dan SGD

Masalah biaya pelatihan yang ditargetkan TNGD

Seiring meningkatnya biaya pelatihan model AI yang canggih, model-model terdepan dunia kini membutuhkan ratusan juta dolar untuk pelatihan
Pada hardware digital, berakhirnya Moore’s Law dan Dennard’s Law memengaruhi waktu eksekusi dan efisiensi energi
Keterbatasan ini meningkatkan kebutuhan akan hardware nontradisional bertujuan khusus untuk meningkatkan efisiensi pelatihan model AI
Hardware digital juga mempersempit ragam algoritme pelatihan yang dapat dipilih pengguna
- SGD, Adam, dan variannya banyak digunakan dalam pelatihan DNN dan model AI besar
- Optimizer yang lebih canggih jarang digunakan pada hardware digital karena overhead komputasinya besar

Keunggulan dan bottleneck optimisasi orde kedua

Metode orde kedua menangkap informasi kelengkungan pada lanskap loss sehingga secara teoretis memiliki karakteristik konvergensi yang lebih kuat
Natural gradient descent (NGD) harus memperkirakan besaran orde kedua seperti matriks informasi Fisher dan melakukan penyelesaian sistem linear yang mahal pada setiap epoch
Pendekatan aproksimasi NGD seperti K-FAC telah menunjukkan potensi dan juga performa yang lebih baik daripada Adam, tetapi masih sulit diterapkan pada arsitektur neural network sembarang

Loop pelatihan hibrida digital-analog

TNGD beroperasi sebagai loop hibrida digital-analog, dengan GPU berkomunikasi dengan komputer termodinamika analog
Selama pelatihan, gradient dan matriks informasi Fisher atau matriks kelengkungan semidefinit positif lain dihitung pada interval waktu tertentu, sementara di antaranya dinamika analog berjalan
Sifat termodinamika yang muncul pada keadaan setimbang sistem analog digunakan sebagai sumber daya komputasi
Pengguna menyediakan arsitektur model, dan komputer analog hanya mempercepat proses pelatihan
- Ini kontras dengan sebagian proposal akselerasi inferensi AI analog yang mengunci model pada hardware sehingga pengguna sulit mengubah arsitektur secara bebas

Kompleksitas komputasi dan hasil eksperimen

TNGD setara dengan NGD pada wilayah parameter tertentu, tetapi menghindari penyelesaian sistem linear yang biayanya terlalu besar
Metode ini memanfaatkan proses Ornstein–Uhlenbeck fisik untuk mengimplementasikan aturan pembaruan parameter NGD
Waktu eksekusi per iterasi berskala linear terhadap jumlah parameter
Dengan paralelisasi yang tepat, waktu eksekusi yang mendekati optimizer orde pertama seperti Adam dan SGD dimungkinkan
Dalam eksperimen numerik, TNGD menghasilkan hasil yang lebih unggul daripada metode pelatihan digital orde pertama dan orde kedua mutakhir pada fine-tuning model bahasa, termasuk tugas klasifikasi dan extractive question answering

1 komentar

GN⁺ 2024-05-26

Komentar Hacker News

Intinya adalah bahwa natural gradient descent merupakan metode orde kedua. Rumus pembaruan utamanya adalah ∇̃L(θ) = F⁻¹∇L(θ), dan ini mengharuskan penyelesaian sistem linear.
Untuk ini, metode dari makalah penulis sebelumnya, Thermodynamic Linear Algebra, dapat digunakan. Karena sulit mengimplementasikan jaringan saraf lengkap pada komputer termodinamika, makalah ini mengusulkan cara menjalankannya secara paralel dengan GPU biasa. Strukturnya adalah GPU menghitung F dan ∇L(θ), lalu sistem linear diserahkan ke komputer termodinamika yang berjalan paralel dengan sistem digital (Gambar 1). Namun, penting dicatat bahwa grafik “Runtime vs Accuracy” pada Gambar 3 menggunakan model waktu algoritma TNGD, karena komputer yang dibutuhkan belum ada.
Keren dan menarik. Para penulis mengusulkan loop pelatihan hibrida digital-analog yang mencerminkan kelengkungan lanskap loss, yaitu turunan orde kedua, dan melalui simulasi numerik menunjukkan bahwa jika metode ini diimplementasikan sebagai sistem fisik, biaya komputasi tiap iterasi dalam loop pelatihan bertambah secara linear terhadap jumlah parameter.
Jika hukum termodinamika dapat dimanfaatkan untuk mengambil alih pekerjaan pelatihan model AI dan melampaui batas skalabilitas serta tantangan pada hardware digital dan metode pelatihan yang ada, saya mendukung upaya mencari arah seperti itu.
Makalah ini terutama membahas hasil pelatihan deep learning/jaringan saraf dan optimisasi, tetapi saya penasaran seberapa mudah kerangka optimisasi yang sama dapat diterapkan pada jenis masalah optimisasi lain yang sulit atau besar. Saya juga berpikiran sama ketika pertama kali melihat tulisan terkait Extropic(https://www.extropic.ai/).
Saya mencari informasi publik tentang API atau software stack di situs webnya untuk melihat apakah masalah optimisasi di luar jaringan saraf bisa dimodelkan, tetapi tampaknya belum tersedia. Masih ada banyak masalah optimisasi kombinatorial NP-hard dan optimisasi analitis skala besar yang sangat layak dipecahkan, dan secara pribadi saya tertarik pada masalah EDA dan desain semikonduktor. Adiabatic quantum computing juga pernah menjadi teknologi yang menjanjikan penyelesaian masalah optimisasi, dan quantum computing saat ini masih banyak berjalan pada solusi skala kecil. Saya berharap startup “komputasi termodinamika” baru seperti ini juga menyediakan teknologi keren untuk mengeksplorasi masalah-masalah tersebut.
Memanfaatkan termodinamika untuk menghitung pembaruan orde kedua dengan lebih efisien jelas keren dan layak dieksplorasi, tetapi dalam konteks deep learning, kegunaan praktisnya masih saya ragukan.
Sudah ada metode orde kedua[1] yang berjalan sangat efisien pada hardware klasik, tetapi dalam praktiknya hampir tidak digunakan dan kalah oleh metode orde pertama seperti ADAM. Untuk mengoptimalkan fungsi loss yang sangat nonlinear seperti pada model deep learning, baik orde pertama maupun orde kedua pada akhirnya membutuhkan learning rate yang sangat rendah. Karena itu, metode orde kedua memang bisa memberikan pembaruan parameter yang sedikit lebih baik per langkah, tetapi sering kali biayanya meningkat lebih besar daripada manfaatnya, sehingga biasanya kurang bernilai.
[1] https://andrew.gibiansky.com/blog/machine-learning/hessian-f...
- Saya setuju ini keren, dan juga setuju bahwa sulit membuat metode orde kedua menjadi bernilai. Kadang dataset terlalu besar sehingga bahkan gradient dari mini-batch pun sulit diperkirakan dengan masuk akal.
  Memperkirakan informasi orde kedua yang berguna untuk seluruh dataset lebih sulit lagi, terutama mengingat alasan kita memakai mini-batch sejak awal adalah agar komputasinya memungkinkan.
Saya belum membaca makalahnya secara mendetail, tetapi bisakah ada yang menjelaskan apa daya tariknya? Melihat Tabel 1, tampaknya metode ini memiliki kompleksitas asimtotik yang sama dengan SGD berdasarkan ukuran sampel.
Mengingat model besar dan over-parameterized saat ini memiliki banyak ekstremum yang mirip satu sama lain, saya juga tidak yakin apakah ini benar-benar diperlukan. Kalau bukan quasilinear, apalagi sublinear, rasanya tidak ada alasan untuk tertarik.
Ini mengingatkan saya pada simulated annealing yang saya pelajari di kelas AI sekitar 10 tahun lalu.
https://en.wikipedia.org/wiki/Simulated_annealing
Apa perkiraan terbaik saat ini tentang bagaimana neuron pada hewan belajar?
- http://www.scholarpedia.org/article/Spike-timing_dependent_p...
Bukankah Geoffrey Hinton pernah membicarakan hal seperti ini sekitar setahun lalu?
Saya tidak mengerti. Perhitungan gradient descent terjadi sangat sering dan state/input terus berubah, jadi bukankah lanskap termal harus diinisialisasi ulang sangat sering? Apa gunanya? Rasanya tidak mungkin ada potensi peningkatan kecepatan di sini.
Mungkin lebih masuk akal melakukan sesuatu dengan medan elektromagnetik atau interferensinya, atau mungkin struktur 3D.
Sampai bagian “diperlukan komputer termodinamika analog” kedengarannya bagus, lalu tunggu, apa? Saya berharap seseorang yang benar-benar belajar fisika bisa menjelaskannya.
- Lampiran C makalah ini menjelaskannya dengan cukup baik. Mereka menyusun matriks integrator dari beberapa operational amplifier, konstanta waktu RC (mungkin menggunakan potensiometer digital), serta antarmuka ADC/DAC multikanal yang terhubung ke PC. Pada dasarnya ini adalah perangkat khusus untuk menyelesaikan persamaan diferensial.
  Jadi ini kombinasi komputasi analog gaya lama dan kode modern berbasis GPU. Dalam praktiknya, overhead antarmuka hardware dan waktu menunggu integrator menjadi stabil membuatnya lebih lama, tetapi saya memahami klaimnya sebagai: implementasi yang dioptimalkan dapat mempercepat konvergensi dan mengungguli solusi digital murni. Ide utamanya adalah bahwa gradient descent konvensional pada dasarnya merupakan operasi linear, sementara gradient yang benar-benar diikuti adalah permukaan melengkung, sehingga jika ditangani hanya di ranah digital, perlu beberapa langkah yang tidak perlu untuk mendekatinya. Masalahnya, seperti yang dipelajari banyak orang dengan susah payah sejak Seymour Cray, pada akhirnya CMOS selalu menang. Sebab kekuatan pendanaan satu industri penuh dicurahkan untuk mengoptimalkan CMOS.
- Sejauh yang saya pahami, https://extropic.ai melakukan hal persis ini, dan https://normalcomputing.ai/, perusahaan para penulis makalah, kemungkinan besar juga begitu.
- Intinya adalah memanfaatkan hukum alam untuk melatih model AI, serta melampaui batas dan masalah skalabilitas hardware digital dan metode pelatihan yang ada.
- Salah satu contohnya bisa berupa quantum annealer. Di sini, “pemrograman” lebih mirip menetapkan kondisi awal yang sesuai dan membiarkan relaksasi termodinamika mencapai titik optimum.
- Jika produk seperti ini bisa dibuat, itu bisa menarik. Secara global, puluhan miliar dolar, mungkin lebih, dibelanjakan setiap tahun untuk optimisasi numerik, dan jika ini dapat mempercepatnya secara signifikan, potensinya bisa sangat menguntungkan.

Thermodynamic Natural Gradient Descent

Masalah biaya pelatihan yang ditargetkan TNGD

Keunggulan dan bottleneck optimisasi orde kedua

Loop pelatihan hibrida digital-analog

Kompleksitas komputasi dan hasil eksperimen

Bacaan terkait

1 komentar

Komentar Hacker News