Zen dan Seni Riset Machine Learning

(blog.jxmo.io)

3 poin oleh GN⁺ 5 jam lalu | 2 komentar | Bagikan ke WhatsApp

Riset AI kelas dunia tidak lahir dari bakat saja; hasil ditentukan oleh temperamen untuk bertahan lama sambil berulang kali membaca dan membangun
Pemilihan topik harus dimulai dari pemahaman mendalam atas konsep dasar seperti cross-entropy, SVD, dan policy gradients, bukan dari kata kunci yang baru tren selama 6 bulan
Riset yang baik tidak berhenti pada kenaikan skor benchmark yang ada, tetapi juga harus menemukan dataset untuk menguji kemampuan yang benar-benar ditunjukkan metode baru
Hasil eksperimen, baik bagus maupun buruk, sama-sama memberi informasi, tetapi hasil yang tampak terlalu bagus justru bisa jadi bug atau pengukuran yang salah sehingga perlu paranoia yang sehat
Coding agent memang mempercepat kerja, tetapi juga memperbesar kurangnya pemahaman sistem dan peralihan konteks, sehingga seluruh sistem yang menghasilkan hasil itu tetap harus dipahami langsung

Titik awal menjadi peneliti

Riset AI dimulai dengan mengulang membaca dan belajar, lalu membuat sesuatu secara langsung
Salah satu saja tidak cukup; peneliti terbentuk dengan bolak-balik antara dua aktivitas itu
Riset mirip meditasi: pada hari ketika wawasan datang, kita tetap duduk, dan pada hari ketika tidak datang pun kita tetap harus terus duduk
Wawasan ilmiah datang seolah acak, dan pada sebagian besar hari hal itu tidak datang
Seperti musik, olahraga, atau penjualan, untuk mencapai level kelas dunia dibutuhkan banyak waktu, usaha, dan volume latihan yang besar
Dalam paper SwiGLU, Noam Shazeer menulis, “makalah ini tidak menjelaskan mengapa arsitektur ini bekerja, dan seperti halnya semua hal lain, keberhasilannya kami kaitkan dengan kemurahan Tuhan,” yang menunjukkan sifat acak dari keberhasilan ide riset
Membaca terlalu banyak paper juga bisa menjadi masalah
- Jalur yang terbukti adalah mencoba solusi terlebih dahulu, mentok, menyelesaikannya sendiri, lalu mencari literatur ketika ide pribadi benar-benar habis

Apa yang layak diteliti

Jika baru memulai, topik riset yang persis dipilih sebenarnya tidak terlalu penting
Namun sebaiknya hindari memilih topik yang bahkan belum 6 bulan menjadi tren
- AI bergerak cepat, tetapi ide dasarnya tidak banyak berubah selama 40 tahun
- Jangan terlalu mempertaruhkan karier pada konsep seperti harnesses, agents, atau context engineering pada 2026
Untuk belajar lebih banyak, perlu kembali ke dasar
- Pelajari apa itu cross-entropy, lalu hitung dengan tangan untuk distribusi kecil
- Pahami SVD sedalam mungkin sampai bisa memvisualisasikannya di kepala
- Jangan hanya melihat RL untuk coding; pelajari ide policy gradients, kegunaannya, dan mengapa konsep itu populer selama puluhan tahun
Jika hasil terbaik dari sebuah proyek riset hanya berupa kenaikan skor benchmark yang sudah ada, berarti riset itu belum cukup dalam
- Dataset yang ada sering kali tidak mampu menguji kemampuan baru yang menarik
- Jason Wei memandang pencarian dataset yang memaksa metode baru benar-benar menunjukkan kemampuan yang bekerja sebagai keterampilan riset AI yang diremehkan tetapi bisa menentukan sukses atau gagal
Topik spesifik harus ditemukan sendiri, dengan masuk lebih dalam, fokus pada dasar, dan tidak terjebak mengejar benchmark

Pikiran pemula dan penilaian yang terbuka

Ucapan Suzuki, “dalam pikiran pemula ada banyak kemungkinan, dalam pikiran ahli ada sedikit,” juga berlaku untuk riset
Dalam riset AI modern, di Silicon Valley sering diulang bahwa pengalaman riset AI yang sudah ada justru bisa merusak intuisi riset yang baik
Sebagian peneliti era pre-scaling terus tertarik merancang metode yang bekerja pada skala kecil tetapi gagal saat diskalakan
Di OpenAI, banyak orang yang menjalankan perusahaan dari sisi teknis berusia di bawah 35 tahun, dan banyak pengambil keputusan penting untuk ChatGPT berusia di bawah 30 tahun
Karena ini bidang yang masih sangat awal, bahkan belum 4 tahun sejak ChatGPT dirilis, tidak ada siapa pun yang memiliki keunggulan mutlak karena sudah terlalu lama berkecimpung
Memegang ide terlalu lama bisa berbalik merugikan, jadi penting menjaga pikiran tetap terbuka dan tidak membiarkan ego mengaburkan penilaian

Inspirasi juga datang dari luar riset

Inspirasi datang pada saat yang tidak terduga
Penemuan struktur cincin benzena terkenal berasal dari mimpi
- Struktur itu belum pernah dilihat sebelumnya, tetapi dibayangkan sebagai ular yang menggigit ekornya sendiri
Ozempic adalah contoh yang berasal dari kadal
- Hormon GLP-1 yang ditiru Ozempic pertama kali ditemukan dalam racun Gila monster, kadal gurun yang hanya makan beberapa kali setahun
- Penemuan itu kemudian mengarah pada mekanisme yang juga bekerja pada manusia
Untuk melakukan riset yang baik, kita juga harus melakukan hal-hal di luar riset
Banyak momen “aha” terjadi bukan di depan keyboard, terutama saat berjalan kaki
Pemikir seperti Darwin, Tesla, Feynman, dan Aristotle semuanya berbicara tentang manfaat besar dari meregangkan kaki dan berjalan sebentar

Sikap terhadap hasil eksperimen

Bahkan jika implementasi sudah sempurna, idenya bisa saja tidak benar secara mendasar
Saat menganalisis eksperimen, dibutuhkan ketenangan eksperimental untuk menerima hasil yang berhasil maupun yang gagal sebagai sesuatu yang sama-sama baik
Keduanya memberi jumlah informasi yang sama
- Kita bahkan bisa belajar lebih banyak dari rangkaian hasil negatif daripada dari satu hasil positif
Jangan terlalu bersemangat dengan hasil yang bagus
- Sebagian besar hasil bagus muncul karena bug
- Bisa jadi hasilnya sebenarnya tidak bagus, hanya diukur salah dan kita meyakinkan diri sendiri
Keinginan agar ide sendiri berhasil itu wajar, tetapi peneliti berpengalaman berbagi skeptisisme yang kuat, terutama saat menghadapi hasil yang terlihat terlalu bagus
Hasil yang tampak terlalu bagus hampir selalu berbeda dari kenyataan

Perbandingan, keberuntungan, dan kedalaman

Riset sangat berpusat pada hasil
Khususnya di akademia, sangat mudah terguncang secara emosional saat melihat keberhasilan paper orang lain
Orang berhasil karena alasan yang berbeda-beda
- Sebagian beruntung
- Proses review akademik tidak konsisten dan juga tidak adil
Saat riset baru yang mengagumkan muncul di bidang sendiri, kita harus bertanya, “apakah saya bekerja pada tingkat kedalaman yang cukup untuk bisa menghasilkan wawasan ini sendiri?”
- Jika jawabannya “ya”, maka prosesnya sudah benar, hanya saja penemuan itu terlewat karena sedang mengerjakan hal lain
- Jika jawabannya “tidak”, jadikan itu motivasi untuk masuk lebih dalam

Pekerjaan berulang yang tak terlihat

Seperti ungkapan bahwa sebelum pencerahan kita membelah kayu dan menimba air, dan setelah pencerahan pun kita tetap membelah kayu dan menimba air, riset juga penuh pekerjaan berulang
Banyak proyek sukses ditopang ratusan jam pekerjaan remeh di balik layar
Andrej Karpathy melabeli sebagian besar ImageNet secara manual
Pembuat SWEBench menyaring data GitHub dengan sangat teliti selama ratusan jam untuk membuat kumpulan isu GitHub yang kecil, mudah ditangani, dan berguna untuk evaluasi
Jika melihat karier para peneliti hebat, sebelum sukses mereka sering menghabiskan waktu lama bekerja di tempat yang tidak terlihat
Semakin ambisius dan berorientasi masa depan sebuah ide, semakin banyak kerja yang mungkin dibutuhkan untuk implementasi dan evaluasi yang teliti; kesulitan ini bukan cacat, melainkan fitur

Kebiasaan riset untuk mencurigai bug

Collin Raffel menilai banyak ide gagal bukan karena idenya buruk, tetapi karena bug kode yang tidak ditemukan penelitinya
Di dunia LLM, masalah ini terutama sulit
Software stack deep learning modern sangat kompleks, dan bug bisa ada di mana-mana
- pelatihan
- inferensi
- harness
- data
Jika ada sesuatu yang tampak salah, jangan abaikan begitu saja
Catat banyak metrik dan usahakan memahami semuanya
Jika sebagian metrik berbeda dari yang diharapkan, cari tahu alasannya; mungkin memang ada sesuatu yang salah
Salah satu sifat penting bagi peneliti adalah paranoia yang sehat

Umpan balik cepat dan peralihan konteks

Sebagian besar eksperimen deep learning memakan waktu terlalu lama
- Pelatihan model bisa memakan waktu berminggu-minggu atau berbulan-bulan
- Mengevaluasi model pada satu tugas saja bisa memakan waktu beberapa hari
Saat menulis kode dengan agent, kita bisa tergoda menjalankan banyak eksperimen secara paralel dan membiarkannya berjalan dalam siklus yang lambat
Paralelisasi sederhana memang membantu sampai batas tertentu, tetapi peralihan konteks adalah pola yang merugikan
Kita perlu merancang workflow riset yang ergonomis yang mendukung umpan balik eksperimen yang cepat
- Kurangi waktu cold start untuk pelatihan
- Buat evaluasi kecil yang bisa cepat mengembalikan hasil
nanoGPT speedrun dari Keller Jordan adalah contoh seberapa banyak yang bisa dipelajari dari siklus iterasi yang cepat
Sebagian hasil pada akhirnya memang tak terhindarkan butuh waktu lama
- Kemampuan menjaga keadaan selama beberapa hari, lalu memahami eksperimen minggu lalu yang selesai hari ini, sangat berguna

Masalah yang diperburuk coding agent

Coding agent membuat kita bergerak lebih cepat, tetapi memperburuk dua masalah
- makin sulit memahami detail fundamental
- peralihan konteks menjadi lebih sering
Peneliti yang baik harus aktif melawan dua kekuatan ini
Codex dapat menulis script pelatihan, menjalankannya, mengawasi prosesnya, menafsirkan hasilnya, lalu mengirimkannya lewat email
Namun kesalahan kecil seperti berikut bisa muncul
- saat terjadi error, ia mengecilkan system prompt tanpa bertanya
- ia mengurangi sequence length agar evaluasi selesai dalam waktu yang masuk akal
- ia menjalankan config yang salah karena pengguna tidak menyebutkannya secara eksplisit
Dari sudut pandang engineering, ini mungkin kesalahan kecil yang mudah diperbaiki, tetapi dari sudut pandang sains, ini serius
- kelalaian kecil saja bisa mengubah hasil penting dalam paper secara material
- karena itu tidak bisa ditoleransi
Walaupun tidak menulis kodenya sendiri, untuk memahami hasil kita tetap harus memahami sistem yang menghasilkan hasil tersebut
Sains yang baik menuntut kita mempelajari bagaimana seluruh sistem bekerja, agar kita bisa yakin bahwa pengamatan itu benar

Riset dibentuk oleh temperamen

Yang dibutuhkan untuk menjadi peneliti sukses bukan hanya bakat
Temperamen sangat diremehkan
Kita harus menjaga rasa ingin tahu dan ketekunan, serta tetap reflektif dan teliti, agar ide bisa datang
Riset terbaik dan pekerjaan produk terbaik lahir dari orang yang mampu bertahan cukup lama pada suatu masalah hingga benar-benar memahaminya
Tekanan untuk cepat menerbitkan dan cepat beriterasi memang nyata, tetapi akumulasi lahir dari kedalaman

2 komentar

GN⁺ 5 jam lalu

Komentar Hacker News

Zen yang dipakai di Barat dan Seon (禪) di Asia Timur terasa cukup berbeda
Zen ala Barat mungkin lebih dekat dengan citra dari buku tahun 1970-an Zen and the Art of Motorcycle Maintenance, dan umumnya bernuansa ketenangan batin serta pikiran pemula
Sebaliknya, Seon di Asia Timur dalam praktiknya lebih menekankan tanpa tujuan atau ketiadaan tujuan
Zen ala Barat terlihat seperti melatih diri agar menjadi lebih kuat, sedangkan Seon Asia Timur lebih dekat dengan mengikuti alam, melepaskan diri, dan membiarkan segala sesuatu mengalir
Dalam praktik Seon yang sebenarnya, fokusnya adalah meragukan diri, melepaskan keterikatan, dan menyadari bahwa hasrat akan pencapaian, perbandingan, dan kontrol semuanya fana
Ada ungkapan terkenal banghajag (放下著), yaitu “lepaskan semuanya”
Justru Stoisisme Romawi kuno tampak lebih dekat dengan Seon daripada Zen ala Barat
Jadi saat melihat tulisan ini, saya kira ini akan menjadi tulisan tentang apakah kita harus melepaskan hasrat akan kesuksesan, tetapi ternyata arahnya sama sekali berbeda dan itu menarik
- Mirip juga, Stoisisme yang dibicarakan di Barat tampaknya di permukaan terutama berfokus pada mengendalikan atau menekan emosi
  Sebaliknya, Stoisisme yang lebih tepat disebut “ala Romawi” jauh lebih dekat dengan sistem etika yang menyeluruh
- Ungkapan “To be done with doing” dari novel Earthsea karya Ursula K. LeGuin selalu terasa sangat kuat bagi saya
  Itu memadatkan satu keadaan batin dalam lima kata, dan saya juga ingat pernah membaca bahwa tulisannya sangat dipengaruhi filsafat Timur
- Dalam konteks “Seon Asia Timur lebih menekankan tanpa tujuan atau ketiadaan tujuan”, saya sangat ingin merekomendasikan Idler magazine
  Ini sumber yang sangat bagus tentang cara hadir secara sehat tanpa tujuan
  https://www.idler.co.uk/article/leisure-principles/
  https://archive.is/nKJM2
- Saya memandang Seon sebagai meditasi tentang menenangkan pikiran dan mengalami momen saat ini
  Dengan begitu, otak bisa beristirahat dari keadaan “mengejar pikiran”, dan setelah berhenti bermeditasi kita bisa fokus lebih baik sehingga dapat menyelesaikan lebih banyak hal
  Mungkin benar juga bahwa banyak praktisi Zen di Barat menyadari ini dan menggunakan meditasi untuk tujuan itu
  Jika mengingat Star Wars, “the Force” digambarkan seperti kemampuan mengangkat pesawat ruang angkasa dengan kekuatan konsentrasi, tetapi itu adalah mitos
  Sebaliknya, ketika mencapai keadaan batin Seon, apakah kita bisa mengangkat pesawat ruang angkasa itu atau tidak menjadi kurang penting
  Dalam tradisi Timur, Seon adalah tujuan itu sendiri
  Saya penasaran apakah ini lebih dekat dengan maksud yang sebenarnya ingin disampaikan
Sekitar tahun 2015 saya mulai mengelola backend engineer dan machine learning engineer sekaligus
Banyak dari backend engineer ingin lebih banyak mengerjakan machine learning, dan ketika diberi kesempatan ada yang melakukannya dengan baik, tetapi ada juga yang dalam beberapa bulan ingin kembali ke backend
Pada saat yang sama, salah satu pemimpin machine learning justru ingin mundur dari machine learning dan hanya mengerjakan backend yang mendukung machine learning
Saat melihat arus seperti ini, saya mulai berpikir bahwa tiap orang berbeda dalam seberapa sering mereka perlu melihat sinyal keberhasilan
Karena sifat produknya, untuk mengukur performa model baru atau model yang diperbarui kami harus menjalankannya di layanan nyata setidaknya selama satu bulan penuh, dan dari pekerjaan awal sampai analisis akhir biasanya memakan waktu lebih dari dua bulan
Sebaliknya, banyak pekerjaan backend memungkinkan kita membuat prototipe cepat, menjalankannya, segera melihat apakah itu bekerja, lalu lanjut ke hal berikutnya, jadi sinyalnya datang terus sepanjang hari
Perbedaan frekuensi sinyal yang dibutuhkan tiap orang sangat memengaruhi apakah mereka menyukai pekerjaan machine learning
Ini terasa seperti semacam feature engineering versi manajer, dan saya benar-benar banyak belajar dari orang-orang di tim itu
- Saya melihat fenomena yang sama dan selalu penasaran bagaimana cara mengelolanya dengan efektif
  Tim data engineering ingin lebih banyak mengerjakan data science, dan dua data scientist sama-sama ingin menjadi data engineer
  Salah satu dari mereka berargumen bahwa karena semua orang ingin menjadi data scientist dan bidang itu terlalu padat, dia bisa menghasilkan lebih banyak uang sebagai data engineer
  Di kesempatan lain, seorang teman mengeluh bahwa dia harus keluar dari frontend murni karena itu karier buntu, tetapi saat makan siang keesokan harinya seorang rekan kerja sedang mempertimbangkan pindah karena frontend developer-lah yang mendapat semua sorotan
Kalimat “Duduklah pada hari ketika Anda mendapat wawasan. Duduklah pada hari ketika Anda tidak mendapat wawasan” mengingatkan saya pada jawaban Ed Witten dalam wawancara Brian Greene
Ketika Greene bertanya seperti apa rutinitas hariannya di Institute for Advanced Study, Witten menjawab, “Saya duduk di meja saya”
Tulisan ini berpusat pada semangat “masuk lebih dalam”, dan menurut saya ini pedang bermata dua
Memang benar bahwa entropi, tensor, dan gradien itu penting dan nyaris menjadi syarat dasar
Tetapi menurut saya, sebagian besar kemajuan deep learning dalam 10 tahun terakhir datang bukan karena ide yang fundamental, melainkan dari praktik bertahap yang tervalidasi lewat eksperimen
Ada intuisi yang bagus tentang mengapa ReLU lebih baik daripada sigmoid, tetapi makalah asli Hinton pun pada dasarnya mendekati alasan “karena belajar 3 kali lebih cepat”
Memikirkan ulang dasar-dasar bisa membantu, tetapi jarang sekali kemajuan nyata terjadi lewat pendekatan “mari ubah fondasinya”
Makalah penting seperti AlexNet atau Attention Is All You Need juga lebih merupakan penyempurnaan ide yang sudah ada dan menunjukkan bagaimana itu membantu
Machine learning adalah ilmu eksperimental, dan banyak ide yang indah secara matematis tidak bekerja, sementara ide yang bersifat rekayasa justru sering bekerja dengan baik
Nasihat bahwa “salah satu sifat terpenting bagi peneliti adalah paranoia yang sehat” juga membuat saya ragu apakah itu nasihat yang lebih baik daripada “depresi baik untuk filsuf”, karena saya terlalu sering melihat mahasiswa doktoral benar-benar habis terbakar
Jika maksudnya adalah menjadi penjelajah yang gigih, saya setuju
Berpegang pada ide terlalu lama bisa berdampak buruk, dan saya setuju dengan kesimpulan bahwa kita harus menjaga pikiran tetap terbuka dan tidak membiarkan ego mengaburkan penilaian
Ini benar-benar esai yang sangat bagus dan enak dibaca
Seperti yang dikatakan penulis, bukan hanya dalam riset, di banyak bidang lain pun keberhasilan atau kemajuan sangat bergantung pada temperamen
Pada akhirnya, sikap yang baik, ketekunan, rasa ingin tahu bawaan, dan daya pulih terhadap kegagalan itu penting
Kemampuan yang membentuk peneliti yang baik juga sangat mudah ditransfer ke bidang lain
Hanya saja, budaya yang mereduksi kemampuan menoleransi ketidaknyamanan menjadi hiperkenyamanan tampaknya membuat kemampuan-kemampuan ini makin langka dan makin berharga
Orang-orang semakin sulit menunggu atau gagal
Sebagai info tambahan tentang etimologi kata Zen, Zen adalah kata dalam bahasa Jepang dan berasal dari Chan dalam bahasa Tionghoa, sementara Chan berasal dari Dhyana dalam bahasa Sanskerta
Dhyana kira-kira diterjemahkan sebagai konsentrasi atau meditasi
Alur Sanskerta → Tionghoa → Jepang mencerminkan jalur geografis penyebaran agama Buddha dari India
Kata yang sama dalam bahasa Vietnam dan Korea masing-masing adalah Thien dan Seon
Menurut saya, fenomena ini terjadi karena machine learning lebih dekat ke biologi atau alkimia daripada matematika atau pemrograman
Dalam matematika atau pemrograman, kita bisa menurunkan sampai ke prinsip pertama, abstraksinya kokoh, dan ketidakdeterminannya terbatas, tetapi dalam machine learning tidak demikian
Dalam konteks serupa, cukup lucu dan terkesan picik bahwa Anthropic membuka lowongan kerja tetapi melarang produk mereka sendiri dipakai untuk riset frontier model
Saya tidak tahu mereka mengira talenta seperti itu akan datang dari mana
Itu keputusan yang gegabah, dan tampaknya besar kemungkinan suatu hari akan memicu gugatan antipersaingan
Bagian yang mengatakan, “Hal yang mengesankan tentang OpenAI adalah orang-orang yang menjalankan perusahaan, setidaknya kebanyakan di sisi teknis, berusia di bawah 35 tahun. Banyak pengambil keputusan penting di balik ChatGPT berusia di bawah 30 tahun,” tampaknya berarti masih ada ruang untuk berkembang, karena pada masa demam emas pun sebagian besar 49ers berusia di bawah 25 tahun
Jika analoginya diteruskan, banyak pahlawan AI mungkin juga adalah orang-orang yang sejak awal berada dekat dengan kumpulan TPU dan GPU
- Kemungkinan untuk dekat dengan sumber daya awal itu mungkin jauh lebih tinggi pada orang-orang yang tetap terobsesi dengan machine learning/AI bahkan ketika bidang itu pernah dianggap sebagai tren yang sudah lewat, sampai tingkat yang sulit dijelaskan
Inti tulisan ini tampaknya adalah “jangan terlalu percaya pada paket evaluasi saat ini”
Skor hanya mencerminkan sebagian dari masalah
Yang menarik adalah menemukan metrik evaluasi baru yang stabil, lalu melihat apakah saat digunakan untuk melakukan hal-hal baru akan muncul hasil cerdas yang tak terduga
- Bagian itu jelas juga termasuk
  Namun intinya adalah bahwa berfokus pada masalah yang diajukan orang lain merupakan cara berpikir yang sangat spesifik dan cukup berjangka pendek
  Peneliti yang baik meningkatkan skor benchmark, dan peneliti yang hebat memikirkan masalah apa yang sebenarnya sedang ia pecahkan

laeyoung 1 jam lalu

Ringkasan komentar Hacker News juga menarik.

Zen dan Seni Riset Machine Learning

Titik awal menjadi peneliti

Apa yang layak diteliti

Pikiran pemula dan penilaian yang terbuka

Inspirasi juga datang dari luar riset

Sikap terhadap hasil eksperimen

Perbandingan, keberuntungan, dan kedalaman

Pekerjaan berulang yang tak terlihat

Kebiasaan riset untuk mencurigai bug

Umpan balik cepat dan peralihan konteks

Masalah yang diperburuk coding agent

Riset dibentuk oleh temperamen

Bacaan terkait

2 komentar

Komentar Hacker News