2 poin oleh GN⁺ 2023-08-27 | 1 komentar | Bagikan ke WhatsApp
  • Artikel tentang pentingnya secara historis makalah "Backpropagation Applied to Handwritten Zip Code Recognition" yang diterbitkan oleh Yann LeCun dkk. pada 1989; makalah ini dianggap sebagai salah satu contoh aplikasi praktis paling awal yang melatih jaringan saraf dari awal hingga akhir menggunakan backpropagation.
  • Penulis mencoba mereproduksi pekerjaan dalam makalah tersebut dengan alat modern seperti PyTorch, dan mencatat bahwa jaringan aslinya diimplementasikan dalam Lisp menggunakan simulator backpropagation SN dari Bottou dan LeCun 1988 (yang kemudian dinamai Lush).
  • Jaringan asli dilatih selama 3 hari pada workstation SUN-4/260, tetapi reproduksi oleh penulis menggunakan CPU MacBook Air (M1) hanya memerlukan sekitar 90 detik.
  • Penulis juga bereksperimen dengan teknik deep learning modern seperti menggunakan optimizer Adam, memperkenalkan augmentasi data dan dropout, serta mengganti fungsi aktivasi tanh dengan ReLU, yang menurunkan tingkat kesalahan sekitar 60%.
  • Penulis menyarankan bahwa peningkatan lebih lanjut dapat dicapai dengan memperbesar ukuran jaringan atau dataset, tetapi hal ini dapat meningkatkan biaya komputasi dan menyebabkan latensi inferensi.
  • Dengan meninjau kemajuan deep learning selama 33 tahun terakhir, penulis menunjukkan bahwa prinsip dasarnya tetap sama, tetapi skala dataset dan model telah meningkat drastis, sementara waktu yang dibutuhkan untuk melatih model telah berkurang secara signifikan.
  • Penulis berspekulasi bahwa pada 2055 jaringan saraf akan menjadi jauh lebih besar, dan sebagian besar aplikasi akan dicapai dengan menyetel halus sebagian kecil jaringan secara ringan, melalui prompt engineering, atau dengan mendistilasi data maupun model ke jaringan inferensi yang lebih kecil dan bertujuan khusus.

1 komentar

 
GN⁺ 2023-08-27
Opini Hacker News
  • Artikel ini membahas evolusi deep neural network selama 33 tahun terakhir dan menyajikan prediksi untuk 33 tahun ke depan.
  • Pelatihan awal jaringan ini dilakukan selama 3 hari pada workstation Sun 4/260 dan mengonsumsi sekitar 14400 watt-jam energi. Saat ini, pelatihan yang sama dapat dilakukan hanya dalam 90 detik di MacBook, dengan penggunaan hanya 0,5 watt-jam, sehingga efisiensi energinya meningkat hampir 30000 kali lipat.
  • Sebagian pembaca mengkritik prediksi artikel untuk tahun 2055 sebagai "meta-linear", dengan alasan bahwa itu masih mencerminkan "simetri worldline" yang menjadikan tanggal saat ini sebagai titik asal. Mereka berpendapat bahwa ini adalah rentang waktu yang cukup panjang sehingga bisa muncul banyak terobosan dan hambatan yang tak terduga.
  • Ada perdebatan apakah dalam 33 tahun ke depan lebih baik terus melakukan hal yang sama dengan lebih banyak data dan daya komputasi yang lebih besar, atau justru mengeksplorasi pendekatan baru.
  • Sebagian pembaca mempertanyakan skalabilitas komputasi dalam 33 tahun mendatang, sementara yang lain berpendapat bahwa skalabilitas itu tidak perlu seperti di masa lalu.
  • Artikel ini dipuji karena mengeksplorasi dasar-dasar machine learning secara langsung dan sederhana, berbeda dengan banyak makalah yang memenuhi halaman dengan arsitektur kompleks baru yang hasilnya sulit direproduksi.
  • Para pembaca menunjukkan bahwa perubahan paling mendasar ada pada model apa yang sedang dilatih, bergeser dari gambar kecil ke komunikasi bahasa dan visual manusia sebagai spesies.
  • Artikel ini membangkitkan nostalgia bagi sebagian pembaca yang telah menyaksikan naik, turunnya, dan bangkit kembali minat terhadap neural network.
  • Sebagian pembaca mengungkapkan antusiasme terhadap masa depan teknologi, sementara yang lain menyatakan kekhawatiran bahwa manusia bisa menjadi tidak berarti di dunia yang didominasi AI.
  • Artikel ini menunjukkan bahwa kemajuan hardware memainkan peran penting dalam evolusi AI, meskipun sebagian pembaca berpendapat bahwa perkembangan di masa depan mungkin tidak akan sedramatis itu.