Zen dan Seni Riset Machine Learning
(blog.jxmo.io)- Riset AI kelas dunia tidak lahir dari bakat saja; hasil ditentukan oleh temperamen untuk bertahan lama sambil berulang kali membaca dan membangun
- Pemilihan topik harus dimulai dari pemahaman mendalam atas konsep dasar seperti cross-entropy, SVD, dan policy gradients, bukan dari kata kunci yang baru tren selama 6 bulan
- Riset yang baik tidak berhenti pada kenaikan skor benchmark yang ada, tetapi juga harus menemukan dataset untuk menguji kemampuan yang benar-benar ditunjukkan metode baru
- Hasil eksperimen, baik bagus maupun buruk, sama-sama memberi informasi, tetapi hasil yang tampak terlalu bagus justru bisa jadi bug atau pengukuran yang salah sehingga perlu paranoia yang sehat
- Coding agent memang mempercepat kerja, tetapi juga memperbesar kurangnya pemahaman sistem dan peralihan konteks, sehingga seluruh sistem yang menghasilkan hasil itu tetap harus dipahami langsung
Titik awal menjadi peneliti
- Riset AI dimulai dengan mengulang membaca dan belajar, lalu membuat sesuatu secara langsung
- Salah satu saja tidak cukup; peneliti terbentuk dengan bolak-balik antara dua aktivitas itu
- Riset mirip meditasi: pada hari ketika wawasan datang, kita tetap duduk, dan pada hari ketika tidak datang pun kita tetap harus terus duduk
- Wawasan ilmiah datang seolah acak, dan pada sebagian besar hari hal itu tidak datang
- Seperti musik, olahraga, atau penjualan, untuk mencapai level kelas dunia dibutuhkan banyak waktu, usaha, dan volume latihan yang besar
- Dalam paper SwiGLU, Noam Shazeer menulis, “makalah ini tidak menjelaskan mengapa arsitektur ini bekerja, dan seperti halnya semua hal lain, keberhasilannya kami kaitkan dengan kemurahan Tuhan,” yang menunjukkan sifat acak dari keberhasilan ide riset
- Membaca terlalu banyak paper juga bisa menjadi masalah
- Jalur yang terbukti adalah mencoba solusi terlebih dahulu, mentok, menyelesaikannya sendiri, lalu mencari literatur ketika ide pribadi benar-benar habis
Apa yang layak diteliti
- Jika baru memulai, topik riset yang persis dipilih sebenarnya tidak terlalu penting
- Namun sebaiknya hindari memilih topik yang bahkan belum 6 bulan menjadi tren
- AI bergerak cepat, tetapi ide dasarnya tidak banyak berubah selama 40 tahun
- Jangan terlalu mempertaruhkan karier pada konsep seperti harnesses, agents, atau context engineering pada 2026
- Untuk belajar lebih banyak, perlu kembali ke dasar
- Pelajari apa itu cross-entropy, lalu hitung dengan tangan untuk distribusi kecil
- Pahami SVD sedalam mungkin sampai bisa memvisualisasikannya di kepala
- Jangan hanya melihat RL untuk coding; pelajari ide policy gradients, kegunaannya, dan mengapa konsep itu populer selama puluhan tahun
- Jika hasil terbaik dari sebuah proyek riset hanya berupa kenaikan skor benchmark yang sudah ada, berarti riset itu belum cukup dalam
- Dataset yang ada sering kali tidak mampu menguji kemampuan baru yang menarik
- Jason Wei memandang pencarian dataset yang memaksa metode baru benar-benar menunjukkan kemampuan yang bekerja sebagai keterampilan riset AI yang diremehkan tetapi bisa menentukan sukses atau gagal
- Topik spesifik harus ditemukan sendiri, dengan masuk lebih dalam, fokus pada dasar, dan tidak terjebak mengejar benchmark
Pikiran pemula dan penilaian yang terbuka
- Ucapan Suzuki, “dalam pikiran pemula ada banyak kemungkinan, dalam pikiran ahli ada sedikit,” juga berlaku untuk riset
- Dalam riset AI modern, di Silicon Valley sering diulang bahwa pengalaman riset AI yang sudah ada justru bisa merusak intuisi riset yang baik
- Sebagian peneliti era pre-scaling terus tertarik merancang metode yang bekerja pada skala kecil tetapi gagal saat diskalakan
- Di OpenAI, banyak orang yang menjalankan perusahaan dari sisi teknis berusia di bawah 35 tahun, dan banyak pengambil keputusan penting untuk ChatGPT berusia di bawah 30 tahun
- Karena ini bidang yang masih sangat awal, bahkan belum 4 tahun sejak ChatGPT dirilis, tidak ada siapa pun yang memiliki keunggulan mutlak karena sudah terlalu lama berkecimpung
- Memegang ide terlalu lama bisa berbalik merugikan, jadi penting menjaga pikiran tetap terbuka dan tidak membiarkan ego mengaburkan penilaian
Inspirasi juga datang dari luar riset
- Inspirasi datang pada saat yang tidak terduga
- Penemuan struktur cincin benzena terkenal berasal dari mimpi
- Struktur itu belum pernah dilihat sebelumnya, tetapi dibayangkan sebagai ular yang menggigit ekornya sendiri
- Ozempic adalah contoh yang berasal dari kadal
- Hormon GLP-1 yang ditiru Ozempic pertama kali ditemukan dalam racun Gila monster, kadal gurun yang hanya makan beberapa kali setahun
- Penemuan itu kemudian mengarah pada mekanisme yang juga bekerja pada manusia
- Untuk melakukan riset yang baik, kita juga harus melakukan hal-hal di luar riset
- Banyak momen “aha” terjadi bukan di depan keyboard, terutama saat berjalan kaki
- Pemikir seperti Darwin, Tesla, Feynman, dan Aristotle semuanya berbicara tentang manfaat besar dari meregangkan kaki dan berjalan sebentar
Sikap terhadap hasil eksperimen
- Bahkan jika implementasi sudah sempurna, idenya bisa saja tidak benar secara mendasar
- Saat menganalisis eksperimen, dibutuhkan ketenangan eksperimental untuk menerima hasil yang berhasil maupun yang gagal sebagai sesuatu yang sama-sama baik
- Keduanya memberi jumlah informasi yang sama
- Kita bahkan bisa belajar lebih banyak dari rangkaian hasil negatif daripada dari satu hasil positif
- Jangan terlalu bersemangat dengan hasil yang bagus
- Sebagian besar hasil bagus muncul karena bug
- Bisa jadi hasilnya sebenarnya tidak bagus, hanya diukur salah dan kita meyakinkan diri sendiri
- Keinginan agar ide sendiri berhasil itu wajar, tetapi peneliti berpengalaman berbagi skeptisisme yang kuat, terutama saat menghadapi hasil yang terlihat terlalu bagus
- Hasil yang tampak terlalu bagus hampir selalu berbeda dari kenyataan
Perbandingan, keberuntungan, dan kedalaman
- Riset sangat berpusat pada hasil
- Khususnya di akademia, sangat mudah terguncang secara emosional saat melihat keberhasilan paper orang lain
- Orang berhasil karena alasan yang berbeda-beda
- Sebagian beruntung
- Proses review akademik tidak konsisten dan juga tidak adil
- Saat riset baru yang mengagumkan muncul di bidang sendiri, kita harus bertanya, “apakah saya bekerja pada tingkat kedalaman yang cukup untuk bisa menghasilkan wawasan ini sendiri?”
- Jika jawabannya “ya”, maka prosesnya sudah benar, hanya saja penemuan itu terlewat karena sedang mengerjakan hal lain
- Jika jawabannya “tidak”, jadikan itu motivasi untuk masuk lebih dalam
Pekerjaan berulang yang tak terlihat
- Seperti ungkapan bahwa sebelum pencerahan kita membelah kayu dan menimba air, dan setelah pencerahan pun kita tetap membelah kayu dan menimba air, riset juga penuh pekerjaan berulang
- Banyak proyek sukses ditopang ratusan jam pekerjaan remeh di balik layar
- Andrej Karpathy melabeli sebagian besar ImageNet secara manual
- Pembuat SWEBench menyaring data GitHub dengan sangat teliti selama ratusan jam untuk membuat kumpulan isu GitHub yang kecil, mudah ditangani, dan berguna untuk evaluasi
- Jika melihat karier para peneliti hebat, sebelum sukses mereka sering menghabiskan waktu lama bekerja di tempat yang tidak terlihat
- Semakin ambisius dan berorientasi masa depan sebuah ide, semakin banyak kerja yang mungkin dibutuhkan untuk implementasi dan evaluasi yang teliti; kesulitan ini bukan cacat, melainkan fitur
Kebiasaan riset untuk mencurigai bug
- Collin Raffel menilai banyak ide gagal bukan karena idenya buruk, tetapi karena bug kode yang tidak ditemukan penelitinya
- Di dunia LLM, masalah ini terutama sulit
- Software stack deep learning modern sangat kompleks, dan bug bisa ada di mana-mana
- pelatihan
- inferensi
- harness
- data
- Jika ada sesuatu yang tampak salah, jangan abaikan begitu saja
- Catat banyak metrik dan usahakan memahami semuanya
- Jika sebagian metrik berbeda dari yang diharapkan, cari tahu alasannya; mungkin memang ada sesuatu yang salah
- Salah satu sifat penting bagi peneliti adalah paranoia yang sehat
Umpan balik cepat dan peralihan konteks
- Sebagian besar eksperimen deep learning memakan waktu terlalu lama
- Pelatihan model bisa memakan waktu berminggu-minggu atau berbulan-bulan
- Mengevaluasi model pada satu tugas saja bisa memakan waktu beberapa hari
- Saat menulis kode dengan agent, kita bisa tergoda menjalankan banyak eksperimen secara paralel dan membiarkannya berjalan dalam siklus yang lambat
- Paralelisasi sederhana memang membantu sampai batas tertentu, tetapi peralihan konteks adalah pola yang merugikan
- Kita perlu merancang workflow riset yang ergonomis yang mendukung umpan balik eksperimen yang cepat
- Kurangi waktu cold start untuk pelatihan
- Buat evaluasi kecil yang bisa cepat mengembalikan hasil
- nanoGPT speedrun dari Keller Jordan adalah contoh seberapa banyak yang bisa dipelajari dari siklus iterasi yang cepat
- Sebagian hasil pada akhirnya memang tak terhindarkan butuh waktu lama
- Kemampuan menjaga keadaan selama beberapa hari, lalu memahami eksperimen minggu lalu yang selesai hari ini, sangat berguna
Masalah yang diperburuk coding agent
- Coding agent membuat kita bergerak lebih cepat, tetapi memperburuk dua masalah
- makin sulit memahami detail fundamental
- peralihan konteks menjadi lebih sering
- Peneliti yang baik harus aktif melawan dua kekuatan ini
- Codex dapat menulis script pelatihan, menjalankannya, mengawasi prosesnya, menafsirkan hasilnya, lalu mengirimkannya lewat email
- Namun kesalahan kecil seperti berikut bisa muncul
- saat terjadi error, ia mengecilkan system prompt tanpa bertanya
- ia mengurangi sequence length agar evaluasi selesai dalam waktu yang masuk akal
- ia menjalankan config yang salah karena pengguna tidak menyebutkannya secara eksplisit
- Dari sudut pandang engineering, ini mungkin kesalahan kecil yang mudah diperbaiki, tetapi dari sudut pandang sains, ini serius
- kelalaian kecil saja bisa mengubah hasil penting dalam paper secara material
- karena itu tidak bisa ditoleransi
- Walaupun tidak menulis kodenya sendiri, untuk memahami hasil kita tetap harus memahami sistem yang menghasilkan hasil tersebut
- Sains yang baik menuntut kita mempelajari bagaimana seluruh sistem bekerja, agar kita bisa yakin bahwa pengamatan itu benar
Riset dibentuk oleh temperamen
- Yang dibutuhkan untuk menjadi peneliti sukses bukan hanya bakat
- Temperamen sangat diremehkan
- Kita harus menjaga rasa ingin tahu dan ketekunan, serta tetap reflektif dan teliti, agar ide bisa datang
- Riset terbaik dan pekerjaan produk terbaik lahir dari orang yang mampu bertahan cukup lama pada suatu masalah hingga benar-benar memahaminya
- Tekanan untuk cepat menerbitkan dan cepat beriterasi memang nyata, tetapi akumulasi lahir dari kedalaman
2 komentar
Komentar Hacker News
Zen yang dipakai di Barat dan Seon (禪) di Asia Timur terasa cukup berbeda
Zen ala Barat mungkin lebih dekat dengan citra dari buku tahun 1970-an Zen and the Art of Motorcycle Maintenance, dan umumnya bernuansa ketenangan batin serta pikiran pemula
Sebaliknya, Seon di Asia Timur dalam praktiknya lebih menekankan tanpa tujuan atau ketiadaan tujuan
Zen ala Barat terlihat seperti melatih diri agar menjadi lebih kuat, sedangkan Seon Asia Timur lebih dekat dengan mengikuti alam, melepaskan diri, dan membiarkan segala sesuatu mengalir
Dalam praktik Seon yang sebenarnya, fokusnya adalah meragukan diri, melepaskan keterikatan, dan menyadari bahwa hasrat akan pencapaian, perbandingan, dan kontrol semuanya fana
Ada ungkapan terkenal banghajag (放下著), yaitu “lepaskan semuanya”
Justru Stoisisme Romawi kuno tampak lebih dekat dengan Seon daripada Zen ala Barat
Jadi saat melihat tulisan ini, saya kira ini akan menjadi tulisan tentang apakah kita harus melepaskan hasrat akan kesuksesan, tetapi ternyata arahnya sama sekali berbeda dan itu menarik
Sebaliknya, Stoisisme yang lebih tepat disebut “ala Romawi” jauh lebih dekat dengan sistem etika yang menyeluruh
Itu memadatkan satu keadaan batin dalam lima kata, dan saya juga ingat pernah membaca bahwa tulisannya sangat dipengaruhi filsafat Timur
Ini sumber yang sangat bagus tentang cara hadir secara sehat tanpa tujuan
https://www.idler.co.uk/article/leisure-principles/
https://archive.is/nKJM2
Dengan begitu, otak bisa beristirahat dari keadaan “mengejar pikiran”, dan setelah berhenti bermeditasi kita bisa fokus lebih baik sehingga dapat menyelesaikan lebih banyak hal
Mungkin benar juga bahwa banyak praktisi Zen di Barat menyadari ini dan menggunakan meditasi untuk tujuan itu
Jika mengingat Star Wars, “the Force” digambarkan seperti kemampuan mengangkat pesawat ruang angkasa dengan kekuatan konsentrasi, tetapi itu adalah mitos
Sebaliknya, ketika mencapai keadaan batin Seon, apakah kita bisa mengangkat pesawat ruang angkasa itu atau tidak menjadi kurang penting
Dalam tradisi Timur, Seon adalah tujuan itu sendiri
Saya penasaran apakah ini lebih dekat dengan maksud yang sebenarnya ingin disampaikan
Sekitar tahun 2015 saya mulai mengelola backend engineer dan machine learning engineer sekaligus
Banyak dari backend engineer ingin lebih banyak mengerjakan machine learning, dan ketika diberi kesempatan ada yang melakukannya dengan baik, tetapi ada juga yang dalam beberapa bulan ingin kembali ke backend
Pada saat yang sama, salah satu pemimpin machine learning justru ingin mundur dari machine learning dan hanya mengerjakan backend yang mendukung machine learning
Saat melihat arus seperti ini, saya mulai berpikir bahwa tiap orang berbeda dalam seberapa sering mereka perlu melihat sinyal keberhasilan
Karena sifat produknya, untuk mengukur performa model baru atau model yang diperbarui kami harus menjalankannya di layanan nyata setidaknya selama satu bulan penuh, dan dari pekerjaan awal sampai analisis akhir biasanya memakan waktu lebih dari dua bulan
Sebaliknya, banyak pekerjaan backend memungkinkan kita membuat prototipe cepat, menjalankannya, segera melihat apakah itu bekerja, lalu lanjut ke hal berikutnya, jadi sinyalnya datang terus sepanjang hari
Perbedaan frekuensi sinyal yang dibutuhkan tiap orang sangat memengaruhi apakah mereka menyukai pekerjaan machine learning
Ini terasa seperti semacam feature engineering versi manajer, dan saya benar-benar banyak belajar dari orang-orang di tim itu
Tim data engineering ingin lebih banyak mengerjakan data science, dan dua data scientist sama-sama ingin menjadi data engineer
Salah satu dari mereka berargumen bahwa karena semua orang ingin menjadi data scientist dan bidang itu terlalu padat, dia bisa menghasilkan lebih banyak uang sebagai data engineer
Di kesempatan lain, seorang teman mengeluh bahwa dia harus keluar dari frontend murni karena itu karier buntu, tetapi saat makan siang keesokan harinya seorang rekan kerja sedang mempertimbangkan pindah karena frontend developer-lah yang mendapat semua sorotan
Kalimat “Duduklah pada hari ketika Anda mendapat wawasan. Duduklah pada hari ketika Anda tidak mendapat wawasan” mengingatkan saya pada jawaban Ed Witten dalam wawancara Brian Greene
Ketika Greene bertanya seperti apa rutinitas hariannya di Institute for Advanced Study, Witten menjawab, “Saya duduk di meja saya”
Tulisan ini berpusat pada semangat “masuk lebih dalam”, dan menurut saya ini pedang bermata dua
Memang benar bahwa entropi, tensor, dan gradien itu penting dan nyaris menjadi syarat dasar
Tetapi menurut saya, sebagian besar kemajuan deep learning dalam 10 tahun terakhir datang bukan karena ide yang fundamental, melainkan dari praktik bertahap yang tervalidasi lewat eksperimen
Ada intuisi yang bagus tentang mengapa ReLU lebih baik daripada sigmoid, tetapi makalah asli Hinton pun pada dasarnya mendekati alasan “karena belajar 3 kali lebih cepat”
Memikirkan ulang dasar-dasar bisa membantu, tetapi jarang sekali kemajuan nyata terjadi lewat pendekatan “mari ubah fondasinya”
Makalah penting seperti AlexNet atau Attention Is All You Need juga lebih merupakan penyempurnaan ide yang sudah ada dan menunjukkan bagaimana itu membantu
Machine learning adalah ilmu eksperimental, dan banyak ide yang indah secara matematis tidak bekerja, sementara ide yang bersifat rekayasa justru sering bekerja dengan baik
Nasihat bahwa “salah satu sifat terpenting bagi peneliti adalah paranoia yang sehat” juga membuat saya ragu apakah itu nasihat yang lebih baik daripada “depresi baik untuk filsuf”, karena saya terlalu sering melihat mahasiswa doktoral benar-benar habis terbakar
Jika maksudnya adalah menjadi penjelajah yang gigih, saya setuju
Berpegang pada ide terlalu lama bisa berdampak buruk, dan saya setuju dengan kesimpulan bahwa kita harus menjaga pikiran tetap terbuka dan tidak membiarkan ego mengaburkan penilaian
Ini benar-benar esai yang sangat bagus dan enak dibaca
Seperti yang dikatakan penulis, bukan hanya dalam riset, di banyak bidang lain pun keberhasilan atau kemajuan sangat bergantung pada temperamen
Pada akhirnya, sikap yang baik, ketekunan, rasa ingin tahu bawaan, dan daya pulih terhadap kegagalan itu penting
Kemampuan yang membentuk peneliti yang baik juga sangat mudah ditransfer ke bidang lain
Hanya saja, budaya yang mereduksi kemampuan menoleransi ketidaknyamanan menjadi hiperkenyamanan tampaknya membuat kemampuan-kemampuan ini makin langka dan makin berharga
Orang-orang semakin sulit menunggu atau gagal
Sebagai info tambahan tentang etimologi kata Zen, Zen adalah kata dalam bahasa Jepang dan berasal dari Chan dalam bahasa Tionghoa, sementara Chan berasal dari Dhyana dalam bahasa Sanskerta
Dhyana kira-kira diterjemahkan sebagai konsentrasi atau meditasi
Alur Sanskerta → Tionghoa → Jepang mencerminkan jalur geografis penyebaran agama Buddha dari India
Kata yang sama dalam bahasa Vietnam dan Korea masing-masing adalah Thien dan Seon
Menurut saya, fenomena ini terjadi karena machine learning lebih dekat ke biologi atau alkimia daripada matematika atau pemrograman
Dalam matematika atau pemrograman, kita bisa menurunkan sampai ke prinsip pertama, abstraksinya kokoh, dan ketidakdeterminannya terbatas, tetapi dalam machine learning tidak demikian
Dalam konteks serupa, cukup lucu dan terkesan picik bahwa Anthropic membuka lowongan kerja tetapi melarang produk mereka sendiri dipakai untuk riset frontier model
Saya tidak tahu mereka mengira talenta seperti itu akan datang dari mana
Itu keputusan yang gegabah, dan tampaknya besar kemungkinan suatu hari akan memicu gugatan antipersaingan
Bagian yang mengatakan, “Hal yang mengesankan tentang OpenAI adalah orang-orang yang menjalankan perusahaan, setidaknya kebanyakan di sisi teknis, berusia di bawah 35 tahun. Banyak pengambil keputusan penting di balik ChatGPT berusia di bawah 30 tahun,” tampaknya berarti masih ada ruang untuk berkembang, karena pada masa demam emas pun sebagian besar 49ers berusia di bawah 25 tahun
Jika analoginya diteruskan, banyak pahlawan AI mungkin juga adalah orang-orang yang sejak awal berada dekat dengan kumpulan TPU dan GPU
Inti tulisan ini tampaknya adalah “jangan terlalu percaya pada paket evaluasi saat ini”
Skor hanya mencerminkan sebagian dari masalah
Yang menarik adalah menemukan metrik evaluasi baru yang stabil, lalu melihat apakah saat digunakan untuk melakukan hal-hal baru akan muncul hasil cerdas yang tak terduga
Namun intinya adalah bahwa berfokus pada masalah yang diajukan orang lain merupakan cara berpikir yang sangat spesifik dan cukup berjangka pendek
Peneliti yang baik meningkatkan skor benchmark, dan peneliti yang hebat memikirkan masalah apa yang sebenarnya sedang ia pecahkan
Ringkasan komentar Hacker News juga menarik.