3 poin oleh GN⁺ 2025-06-04 | 1 komentar | Bagikan ke WhatsApp
  • Makalah tentang prediksi fungsi enzim yang menggunakan model deep learning mendapat sorotan besar dan banyak sitasi, sementara makalah yang menunjukkan kesalahan lewat fact checking hampir tidak mendapat perhatian
  • Penelitian yang melatih model berbasis Transformer pada 22 juta data enzim untuk memprediksi 450 fungsi enzim yang belum teridentifikasi dimuat di Nature Communications
  • Namun, makalah lanjutan mengungkap ratusan prediksi yang salah, duplikasi data, serta kesimpulan yang secara biologis tidak mungkin
  • Tanpa analisis mendalam oleh pakar, sulit menilai keandalan hasil AI, dan risiko penyebaran berkelanjutan dari data yang keliru menjadi semakin besar
  • Pentingnya verifikasi data yang mendasar dan integrasi pengetahuan domain kembali disorot, dibanding model AI yang tampak mengilap

Deep learning gets the glory, deep fact checking gets ignored

  • Makalah prediksi fungsi enzim berbasis deep learning melatih 22 juta data enzim dan memprediksi 450 fungsi enzim yang belum teridentifikasi dengan model Transformer, lalu dimuat di Nature Communications dan mendapat perhatian besar
  • Namun, makalah lanjutan menemukan banyak ratusan prediksi yang salah, duplikasi dengan basis data yang sudah ada, hasil yang secara biologis tidak mungkin, dan kesalahan berulang
  • Sebagai contoh, AI salah memprediksi fungsi gen tertentu pada E. coli, padahal penelitian sebelumnya sudah menunjukkan bahwa fungsi tersebut bukan milik gen itu
  • Makalah yang mengungkap kesalahan semacam ini dimuat di bioRxiv, tetapi jumlah pembacaan dan sitasinya sangat kecil, sehingga memperlihatkan masalah dalam struktur insentif publikasi
  • Para pakar menekankan perlunya verifikasi data dan keahlian domain, lebih dari sekadar pemodelan AI, serta memperingatkan risiko informasi salah yang tersebar kembali melalui basis data

The Problem of Determining Enzyme Function

  • Enzim berperan mempercepat reaksi penting di dalam makhluk hidup, dan berbagai fungsinya diklasifikasikan dengan nomor Enzyme Commission(EC)
  • Tugas memprediksi nomor EC dari urutan asam amino dianggap cocok untuk machine learning karena input dan output-nya jelas
  • Basis data UniProt merangkum lebih dari 22 juta enzim beserta nomor EC-nya, sehingga data pelatihan sangat melimpah

An Approach with Transformers (AI model)

  • Tim peneliti menggunakan model yang terdiri dari Transformer, convolution layer, dan linear layer untuk memprediksi fungsi enzim yang belum teridentifikasi
  • Hal yang menonjol adalah, demi interpretabilitas model, mereka menganalisis apakah high attention region memiliki makna biologis
  • Dari 450 enzim yang belum teridentifikasi, hanya 3 yang divalidasi lewat eksperimen (in vitro), lalu diklaim akurat

The Errors

  • Dari 450 hasil 'baru' yang diumumkan dalam makalah Nature, 135 ternyata sudah ada di basis data yang ada
  • 148 hasil memiliki tingkat pengulangan yang sangat tinggi, seperti fungsi enzim yang sama diprediksi berulang kali, dan banyak kesalahan lain yang secara biologis tidak mungkin juga terkonfirmasi
  • Ditemukan pula banyak kasus ketika enzim diprediksi salah sebagai enzim sintesis untuk zat yang tidak diproduksi E. coli, atau hasilnya bertentangan dengan eksperimen yang sudah ada
  • Kemungkinan data leakage juga diajukan, dan kesalahan sering muncul pada prediksi di area yang tidak memiliki ground truth nyata

The Microbiology Detective

  • Dr. de Crécy-Lagard dari makalah lanjutan memastikan bahwa salah satu hasil prediksi enzim (yciO) dalam makalah Nature jelas bertentangan dengan penelitian sebelumnya
  • Walaupun yciO dan TsaC berhubungan secara evolusioner, eksperimen nyata berulang kali menunjukkan bahwa yciO tidak dapat menggantikan fungsi TsaC
  • Ini memperlihatkan keterbatasan algoritme yang menganggap fungsi sama hanya berdasarkan kemiripan struktur semata
  • Untuk menentukan fungsi enzim, perlu mempertimbangkan secara terpadu berbagai bukti seperti konteks sekitar gen, pengikatan substrat, dan jalur metabolik

Hundreds of Likely Erroneous Results

  • Tim makalah lanjutan memastikan bahwa dari 450 hasil prediksi dalam makalah Nature, 135 sudah merupakan isi yang terdaftar di basis data
  • Sebanyak 148 dianalisis sebagai masalah yang muncul karena prediksi berulang atas fungsi yang sama, bias data, kurangnya fitur, dan keterbatasan arsitektur
  • Banyak hasil lain terbukti salah berdasarkan konteks biologis maupun penelusuran literatur yang ada

Rethinking Enzyme Classification and “True Unknowns”

  • Dalam prediksi fungsi enzim, ada dua tugas yang bercampur: propagasi fungsi yang diketahui dan penemuan fungsi yang benar-benar belum diketahui
  • Supervised ML pada dasarnya memiliki keterbatasan untuk memprediksi fungsi yang benar-benar belum diketahui
  • Prediksi yang salah masuk ke basis data seperti UniProt, lalu model kembali dilatih dengan data ini, sehingga muncul siklus kesalahan yang berulang

Need for Domain Expertise

  • Tidak seperti riset AI, verifikasi data dan analisis mendalam oleh pakar domain kekurangan insentif sehingga kurang menarik perhatian peneliti
  • Dalam praktiknya, salah satu penyebab kegagalan proyek AI berisiko tinggi yang terungkap dalam makalah adalah penerapan pengetahuan domain yang tidak memadai
  • Sebagian besar makalah deep learning tidak melalui verifikasi rinci oleh pakar domain, dan makalah yang tampak mengesankan pun sebenarnya bisa mengandung banyak kesalahan

Kesimpulan dan saran

  • Pentingnya verifikasi data yang mendasar dan integrasi pengetahuan domain lebih ditekankan dibanding pengembangan model AI yang tampak mengilap
  • Disebutkan bahwa insentif dan dukungan riset perlu lebih difokuskan pada penelitian verifikasi yang substantif
  • Ini menunjukkan bahwa verifikasi kesalahan dan peningkatan kualitas data dapat memberi kontribusi yang lebih besar bagi perkembangan AI dalam jangka panjang

1 komentar

 
GN⁺ 2025-06-04
Opini Hacker News
  • Menurut saya, orang sering lupa bahwa kebocoran data itu mungkin terjadi. Kita harus selalu berasumsi ada kebocoran data sampai ada bukti kuat yang menunjukkan sebaliknya, dan beban untuk membuktikan tidak ada kebocoran harus ada pada para penulis. Pada dataset kecil, kebocoran justru jauh lebih mudah terjadi karena datanya bisa dilihat langsung dari awal sampai akhir. Sangat umum terjadi data rusak karena kesalahan yang halus. Sekarang dataset sudah sangat besar sampai tidak mungkin ditinjau seluruhnya oleh manusia, dan semua orang tahu penyaringannya tidak sempurna, jadi tidak masuk akal untuk percaya bahwa tidak ada kebocoran. Kita bisa bilang "sudah difilter", tetapi tidak bisa benar-benar bilang "tidak ada kebocoran". Bahkan pada dataset yang bisa kita akses sendiri pun kita sering menemukan masalah. Setelah terus mengalami hal seperti ini, saya tidak paham kenapa orang masih terus mengasumsikan datanya baik-baik saja. Mungkin ini bentuk penipuan diri karena ekspektasi berlebihan. Kalau ingin memperbaiki masalahnya, kita harus melihat kenyataan dengan akurat

    • Semua sistem pasti punya cacat. Inti persoalannya adalah seberapa banyak cacat yang masih bisa diterima. Misalnya, tingkat fraud pada Medicare dan Medicaid adalah 7,66%; secara nominal itu sangat besar, tetapi bukan berarti sistemnya gagal total, karena 93% sisanya tetap berjalan dengan benar. Model AI juga sama: kalau tingkat kesalahannya 10%, itu tidak otomatis berarti seluruh sistem buruk, melainkan perlu dibahas apakah proporsi itu masih bisa diterima. Lihat referensi ini

    • Menurut saya, perdebatan soal siapa yang menanggung beban pembuktian tidak menjadi pedoman keyakinan seperti yang dibayangkan banyak orang

  • Sebelum AI melakukan riset, menurut saya ia harus lebih dulu berhasil mereproduksi riset yang sudah ada. Misalnya, jika kita memberi makalah deep learning kepada AI lalu memintanya mengimplementasikannya, kita bisa menilai kemampuan nyatanya. Kalau dasar seperti ini saja belum bisa, sulit berharap pada ide-ide baru

    • Awalnya saya kira usulnya adalah "beri AI hanya bagian awal makalahnya lalu biarkan AI menyelesaikan sisanya". Kalau verifikasi pada tingkat ini saja masih belum bisa, saya tidak melihat AI akan mampu menghasilkan penemuan yang inovatif

    • OpenAI sudah membuat benchmark terkait hal ini: tautan paperbench

    • Kita perlu sistem pencatatan yang sepenuhnya transparan dan bisa diverifikasi, serta jaminan bahwa makalah tersebut belum pernah terekspos ke dataset sebelumnya. Kecurangan akademik dalam makalah memang jarang, tetapi kadang terjadi, dan LLM bisa dengan santai menghasilkan informasi palsu

    • Sebagai contoh, mungkin kita bisa memberi AI data statistik eksperimen dari suatu makalah dan memintanya mereproduksi data mentahnya

    • Ide ini bukan cuma cukup menarik, tetapi juga tampaknya bisa membantu menyelesaikan sebagian masalah verifikasi reprodusibilitas. Meski begitu, riset yang direproduksi AI pun tetap harus ditinjau teliti oleh manusia. Secara realistis, ada banyak peran yang saat ini bisa dijalankan LLM, misalnya membantu memverifikasi kode pemrosesan data dalam proses peer review, membantu penelusuran literatur, dan dipakai untuk brainstorming ide

  • "Nature Communications" dan "Nature" memiliki status yang sama sekali berbeda. Keduanya tidak tepat disebut seolah setara. Dan altmetrics adalah metrik yang tidak terlalu berarti. Kecuali jika yang ingin diukur adalah tingkat kegaduhan publik, angkanya hampir tidak ada hubungannya dengan sitasi ilmiah

  • Jika melihat sebagian besar makalah deep learning, tampaknya jarang ada pakar domain yang benar-benar memverifikasi hasilnya secara sangat rinci. Saya penasaran berapa banyak makalah yang terlihat mengesankan tetapi sebenarnya tidak akan lolos verifikasi ketat. Namun, di bidang saya sendiri, makalah AI tampaknya memang banyak diperiksa, baik oleh saya maupun oleh pakar lain. Meski begitu, hasil di ilmu komputer atau perangkat lunak terasa lebih mudah diverifikasi daripada di biologi (atau mungkin itu hanya kesan saya karena saya tidak terlalu paham bio)

    • Di bidang biologi, memvalidasi keabsahan label itu sendiri sering memakan waktu bertahun-tahun. Kasus yang dijadikan contoh oleh OP kebetulan adalah contoh yang sangat beruntung, karena ada seseorang yang sudah lebih dulu menghabiskan beberapa tahun untuk memvalidasi nilai prediksi tertentu. Kebanyakan orang tidak akan mempertaruhkan 3-5 tahun karier mereka untuk memverifikasi prediksi model yang acak

    • Di bidang saya, kalau sebuah makalah memakai teknik itu, orang-orang sering menelaahnya secara rinci dan mengajukan kritik. Masalahnya, kritik seperti itu sering tidak ditanggapi serius oleh orang-orang dari bidang lain

  • Ada pendapat bahwa yang dibutuhkan AI adalah subsistem 'pemeriksa realitas'. Dalam kasus LLM, rasanya seperti kebisingan dari alam bawah sadar kita yang terus berceloteh tanpa henti. Sebenarnya otak kita punya filter internal seperti "apakah yang saya katakan ini kebenaran yang bisa dibantah?" untuk menyaring kebohongan. (Tentu saja diselipi juga candaan bahwa ini tidak berlaku untuk semua orang)

    • Sangat setuju. Beberapa bulan lalu, larut malam, dalam keadaan setengah tertidur, saya menyadari otak saya terus membentuk berbagai frasa dan pikiran. Sering kali saya bisa merasakan dengan sangat jelas semua ide itu melewati filter lalu disaring menjadi kalimat. Ini pengalaman pribadi yang agak aneh, tetapi membuat saya merasa AI benar-benar membutuhkan algoritme seperti ini. Kalau saya jadi menempuh PhD, saya ingin menjadikan ini topik riset

    • Sistem 'pemeriksa realitas' pada manusia mirip dengan discriminator dalam GAN, tetapi sangat dipengaruhi emosi. Riset psikologi menunjukkan bahwa rangkaian penilaian benar-salah pada manusia selalu dimulai dari sinyal emosional, dan akarnya berasal dari keyakinan. Ketika seseorang mengatakan sesuatu yang sangat bertentangan dengan keyakinan saya, respons emosional datang lebih dulu, baru setelah itu penilaian rasional ikut campur

  • Ini sesuai dengan pengalaman saya memakai LLM sebagai peneliti. Saya sangat kagum pada kemampuan memahami dan menghasilkan teks, tetapi saya selalu kecewa melihatnya langsung mengeluarkan jawaban untuk masalah sulit yang belum terpecahkan. Pertanyaan kompleks perlu waktu untuk dipikirkan, tetapi LLM cenderung menjawab dengan penuh percaya diri—bahkan ketika jawabannya sepenuhnya salah—tanpa kedalaman atau perenungan seperti itu

  • Artikel Rachel Thomas ini sangat bagus. Ini kembali menegaskan pandangan bahwa deep learning pada akhirnya adalah alat temu-kembali informasi [generatif]. Data pelatihan memang mencerminkan domain dunia nyata, tetapi pada dasarnya merupakan dataset yang sangat lossy. Misalnya, data/label gen tidak sepenuhnya mewakili struktur nyata biologi, sehingga hasilnya pun sering salah atau tidak masuk akal. Justru ketika hasilnya terlihat terlalu cocok secara aneh, disebut juga kemungkinan ada kebocoran data, sesuai sifat LLM sebagai alat temu-kembali informasi yang dirancang demikian. Dari sudut pandang teori informasi, keterbatasan dataset adalah faktor risiko tak diketahui yang berlaku untuk semua model. Kesimpulannya, masalahnya bukan pada cacat algoritme, melainkan pada dataset pelatihan. Kita bekerja sangat fleksibel dalam domain bahasa alami, dan bahkan anak kecil yang bisa membaca pun dapat menilai apakah sebuah kalimat masuk akal. LLM berhasil di NLP karena data seperti ini. Sebaliknya, di bidang kompleks yang data sumbernya tidak dapat menangkap esensi secara setia, keterbatasannya jauh lebih besar

  • Ada kekhawatiran bahwa misinformasi juga mulai meresap ke sains. Disorot bahwa pernyataan sensasional tanpa dasar mendapat perhatian lebih besar daripada riset yang benar-benar didukung bukti, mirip seperti realitas media sosial. Namun, Twitter dan jurnal Nature jelas tidak bisa dipandang setara, dan selama ini ada kepercayaan bahwa jurnal bergengsi dan sistem peer review adalah 'benteng terakhir' yang menahan masalah semacam ini. Jika begitu, muncul pertanyaan apakah kejadian ini memang merupakan kegagalan Nature

    • Perlu diingat ada statistik yang menunjukkan bahwa makin tinggi dampak sebuah jurnal, makin tinggi pula tingkat pencabutan makalah dan proporsi hasil yang belum tervalidasi. Akar persoalan ini memang masih diperdebatkan, tetapi satu makalah tidak membuktikan kebenaran; ukuran kepercayaan yang sesungguhnya adalah apakah berbagai institusi riset dan beberapa tim peneliti bisa memverifikasi hasilnya secara independen

    • Masalah misinformasi dalam dunia sains bukan hal yang baru membesar sekarang; selama beberapa tahun terakhir memang terus ada perdebatan tentang 'krisis reprodusibilitas'

    • Seperti pada kasus makalah ML Quantum Wormhole, mengecewakan melihat riset yang salah bukan cuma muncul di artikel sains populer, tetapi juga dimuat di jurnal bergengsi. Menurut saya, ini bukan sekadar kesalahan, melainkan terlalu banyak kasus di mana peneliti dan reviewer sama-sama melewatkan verifikasi yang semestinya. Secara pribadi saya dulu skeptis pada sistem jurnal yang ada dan berharap pada publikasi ilmiah yang lebih bebas, tetapi sekarang justru tampak jurnal itu sendiri sedang mengikis kepercayaannya sendiri. Namun, yang paling saya khawatirkan adalah bahwa hal-hal seperti ini pada akhirnya akan memperburuk kepercayaan publik terhadap sains. Sulit bagi publik untuk menangkap nuansa perdebatan internal sains, dan kejadian seperti ini hanya memberi amunisi baru bagi kubu anti-sains

    • Ini mengingatkan saya pada Bullshit asymmetry principle (Hukum Brandolini) tautan prinsip ini

  • Kita cenderung hanya mempromosikan secara dramatis satu kasus ML/AI yang berhasil dengan indah, sambil mengabaikan puluhan percobaan yang gagal

    • Lebih jauh lagi, tampaknya kita juga menyukai 'deep stochastic parroting'. Orang mengabaikan pengalaman langsung, bukti yang terus menumpuk, dan penalaran logis, lalu sengaja menolak kegunaan LLM yang jelas. Dan posisi penolakan itu selalu dihiasi jargon-jargon klise sebagai pembenaran