Deep learning mendapat sorotan, tetapi deep fact-checking diabaikan

(rachel.fast.ai)

3 poin oleh GN⁺ 2025-06-04 | 1 komentar | Bagikan ke WhatsApp

Penelitian yang melatih Transformer pada 22 juta data enzim untuk memprediksi 450 fungsi enzim tak dikenal dimuat di Nature Communications dan mendapat perhatian Altmetric di 5% teratas, tetapi preprint lanjutan yang memverifikasi kesalahan dalam skala besar jauh lebih sedikit mendapat perhatian
Prediksi fungsi enzim tampak seperti masalah menebak nomor EC dari urutan asam amino, tetapi penilaian sebenarnya membutuhkan bukti biologis seperti kemiripan struktur, konteks sekitar gen, docking substrat, dan ko-kemunculan dalam jalur metabolik
Dari 450 prediksi “novel”, 135 sudah ada di UniProt, dan 148 menunjukkan pola yang janggal secara biologis, seperti fungsi yang sama dan sangat spesifik diulang hingga 12 kali
Kasus yciO menunjukkan bahwa kinerja pada set uji dan sejumlah kecil verifikasi in vitro tidaklah cukup; yciO memang mirip secara struktural dengan TsaC, tetapi riset sebelumnya dan perbedaan aktivitas enzim menunjukkan bahwa keduanya tidak menjalankan fungsi inti yang sama
Model supervised learning mungkin berguna untuk menyebarkan label fungsi yang sudah diketahui dalam kelompok fungsi yang sama, tetapi memiliki keterbatasan dalam menemukan fungsi yang benar-benar belum diketahui, dan label yang salah dapat terus menyebar melalui basis data seperti UniProt ke pelatihan model berikutnya

Kontras antara makalah AI prediksi enzim dan verifikasi lanjutannya

Studi aslinya melatih dan mengevaluasi model berbasis Transformer menggunakan dataset 22 juta enzim beserta nomor EC, lalu memprediksi fungsi untuk sekitar 450 enzim yang fungsinya belum diketahui
Makalah itu dimuat di Functional annotation of enzyme-encoding genes using deep learning with transformer layers | Nature Communications, mencatat 22.000 tayangan dan perhatian di 5% teratas dari seluruh output riset menurut Altmetric
Makalah verifikasi lanjutan Limitations of Current Machine-Learning Models in Predicting Enzymatic Functions for Uncharacterized Proteins | bioRxiv menemukan kesalahan serius dan ratusan hasil yang sangat mungkin keliru dalam prediksi makalah asli, tetapi tidak memperoleh jumlah tayangan atau sitasi setara dengan makalah aslinya
Kasus ini menunjukkan bahwa sulit menilai validitas hasil AI di bidang biologi tanpa keahlian domain yang mendalam

Mengapa prediksi fungsi enzim itu sulit

Enzim mengkatalisis reaksi dalam makhluk hidup, dan nomor Enzyme Commission (EC) mengklasifikasikan ribuan fungsi enzim secara hierarkis
Karena input-nya adalah urutan asam amino penyusun protein dan output-nya nomor EC, masalah ini tampak sangat cocok untuk machine learning
UniProt memiliki lebih dari 22 juta enzim beserta nomor EC, sehingga dapat dimanfaatkan sebagai dataset pelatihan berskala besar
Namun, penentuan fungsi enzim tidak cukup hanya dengan kemiripan urutan dan struktur, dan hubungan evolusioner yang telah bercabang fungsinya merupakan jebakan yang umum

Pendekatan Transformer dan keberhasilan yang tampak di permukaan

Makalah Nature Communications menggunakan model deep learning Transformer untuk memprediksi fungsi enzim yang sebelumnya belum diketahui
Arsitektur modelnya, yang mengadopsi pendekatan dari BERT, terdiri dari dua encoder Transformer, dua lapisan konvolusi, dan lapisan linear
Para peneliti memeriksa apakah wilayah dengan attention tinggi bermakna secara biologis, lalu menyimpulkan bahwa model mempelajari makna yang mendasar sekaligus menawarkan interpretabilitas
Mereka menggunakan pembagian train/validation/test yang standar pada dataset berisi jutaan entri, lalu menerapkan model ke dataset tanpa ground truth untuk menghasilkan sekitar 450 prediksi baru
Dari jumlah itu, tiga dipilih secara acak untuk diuji in vitro, dan prediksinya dinyatakan akurat

Kesalahan yang terungkap dan pola pengulangan

Analisis lanjutan menyimpulkan bahwa ratusan prediksi “novel” dalam makalah Nature Communications hampir pasti adalah kesalahan
Makalah asli memang menunjukkan kinerja yang baik pada test set yang ditahan, tetapi penyelidikan berikutnya menemukan kemungkinan data leakage
Dari 450 hasil “novel” tersebut:
- 135 ternyata sudah terdaftar di UniProt, sehingga sebenarnya tidak baru
- 148 menunjukkan pola tidak normal berupa fungsi enzim yang sama dan sangat spesifik berulang hingga 12 kali pada gen-gen E. coli
Pengulangan seperti ini tidak masuk akal secara biologis, dan bias, ketidakseimbangan data, kurangnya fitur terkait, keterbatasan arsitektur, serta kurangnya kalibrasi ketidakpastian dapat membuat model memaksakan label yang umum di data latih
YjhQ diprediksi sebagai mycothiol synthase, tetapi E. coli tidak mensintesis mycothiol
YrhB diprediksi mensintesis senyawa tertentu, tetapi senyawa itu sudah diprediksi disintesis oleh enzim QueD, dan mutant E. coli QueD tidak mampu mensintesis senyawa tersebut, yang menunjukkan bahwa itu bukan fungsi YrhB

Peran pengetahuan domain yang ditunjukkan oleh kasus yciO

yciO, salah satu target uji in vitro, adalah enzim yang telah diteliti Dr. de Crécy-Lagard selama lebih dari 10 tahun
Makalah asli menyimpulkan bahwa yciO memiliki fungsi yang sama dengan TsaC, tetapi riset sebelumnya tidak mendukung hal itu
TsaC adalah gen esensial di E. coli, dan meskipun yciO ada pada genome yang sama serta yciO dioverekspresikan, esensialitas TsaC tidak hilang
Aktivitas yciO yang dilaporkan oleh Kim et al. lebih lemah lebih dari 4 digit dibanding TsaC, yakni lebih dari 10.000 kali lebih lemah
yciO dan TsaC memang mirip secara struktural, dan yciO berevolusi dari leluhur TsaC, tetapi diversifikasi fungsi setelah duplikasi gen merupakan hal yang umum dalam evolusi protein dan enzim
Untuk klasifikasi fungsi enzim, selain kemiripan struktur, bukti berikut juga penting
- neighborhood context gen
- docking substrat
- ko-kemunculan gen dalam jalur metabolik
- karakteristik enzim lainnya

Membedakan “penyebaran fungsi yang diketahui” dan “penemuan fungsi yang benar-benar belum diketahui”

Dalam identifikasi fungsi enzim, ada dua masalah berbeda yang tercampur
- masalah menyebarkan label fungsi yang sudah diketahui ke enzim dalam kelompok fungsi yang sama
- masalah menemukan fungsi yang benar-benar belum diketahui
Secara desain, model machine learning supervised tidak dapat digunakan untuk memprediksi fungsi dari true unknowns
Machine learning mungkin berguna untuk menyebarkan fungsi yang sudah diketahui ke enzim tambahan
Namun, kesalahan berikut dapat terjadi
- gagal menyebarkan label yang seharusnya disebarkan
- menyebarkan label yang seharusnya tidak disebarkan
- kesalahan kurasi
- kesalahan eksperimen
Jika fungsi yang salah masuk ke basis data online inti seperti UniProt, kesalahan itu dapat makin menyebar ketika dipakai sebagai data latih untuk model prediksi berikutnya
Masalah ini dapat membesar seiring waktu

Rendahnya penghargaan untuk riset verifikasi data

Pekerjaan membangun model AI mendapat penghargaan dan dukungan yang lebih besar daripada pekerjaan memeriksa data dasar secara cermat dan mengintegrasikan pengetahuan domain yang mendalam
Everyone Wants to do the Model Work, not the Data Work membahas puluhan praktisi machine learning yang terlibat dalam proyek AI berisiko tinggi, dan menyoroti kurang memadainya keahlian domain aplikasi sebagai salah satu penyebab utama kegagalan fatal
Menilai hasil AI di luar bidang keahlian sendiri bisa sangat sulit atau bahkan mustahil
Banyak makalah deep learning dibaca tanpa adanya tinjauan rinci dari pakar domain terhadap kualitas hasilnya
Pekerjaan memeriksa ratusan prediksi enzim memang kurang glamor dibanding membangun model AI, tetapi bisa jauh lebih penting bagi kualitas hasil
Sistem insentif yang terlalu berfokus pada solusi AI yang mencolok dapat mengorbankan hasil yang berkualitas

1 komentar

GN⁺ 2025-06-04

Opini Hacker News

Saya pernah mengalami hal serupa. Saya mencoba melempar BERT pada data enzim, dan di evaluasi tampak baik-baik saja, tetapi di lingkungan nyata gagal total. Itu kasus klasik “overfit pada nuansa”
Jujur saja, untuk klasifikasi sederhana saya akan selalu memilih SVM atau regresi logistik. Transformer memang keren, tetapi kalau datanya tidak sangat bersih, ia akan mengarang dengan penuh percaya diri. Mirip seperti memberi GPT ujian pilihan ganda yang tidak masuk akal: ia tetap memilih sesuatu dan mengatakannya dengan sangat yakin
Belakangan saya lebih memilih mengambil embedding dari model besar lalu menaruh classifier sederhana di atasnya. Hasilnya lebih baik, lebih cepat, dan lebih tidak berisik
- Transformer bisa mendapat nilai sempurna di test set, lalu tersungkur begitu bertemu dunia nyata. Saya juga pernah menari-nari, “Wah, akurasi 92%!”, lalu belakangan sadar bahwa yang saya buat hanyalah pattern matcher yang dengan percaya diri menebak fitur-fitur remeh dalam dataset
- Mungkin Anda sudah tahu, tetapi pendekatan mengambil embedding dari model besar lalu menaruh classifier di atasnya secara luas dikenal sebagai transfer learning
- Benar, tetapi itu tetap menggunakan transformer secara tidak langsung
- Ironisnya, komentar ini sendiri terbaca seperti dibuat oleh transformer, tepatnya ChatGPT
- Pertanyaan yang agak berbeda: menurut Anda seberapa berguna SVM di produksi? Saya umumnya merasa SVM terlalu lambat dibanding algoritma lain sehingga nilainya jadi kurang layak
Sebelum menyuruh AI melakukan riset, sepertinya kita harus lebih dulu membuatnya mereproduksi riset. Misalnya, berikan makalah tentang suatu teknik deep learning lalu minta ia membuat implementasi dari makalah itu
Kalau itu saja tidak bisa, saya tidak berharap ia mampu menghasilkan ide baru
- Reproducibility adalah baseline. Sampai model bisa membaca, memahami, dan mengimplementasikan riset yang sudah ada secara stabil dan benar, istilah “ilmuwan AI” sebagian besar hanyalah branding
- OpenAI membuat benchmark untuk ini: https://openai.com/index/paperbench/
- Untuk LLM diperlukan audit trail yang sangat lengkap, dan harus dipastikan juga bahwa makalah tersebut tidak ada di bagian mana pun dari dataset
  Kecurangan akademik memang jarang, tetapi bukan berarti tidak ada. LLM akan membuat-buat data dan berbohong jika ada celah sedikit saja
- Saya kira maksudnya akan mengatakan, “Mari beri AI bagian awal makalah, yaitu prompt, lalu minta ia melengkapi sisanya untuk menguji apakah ia bisa menghasilkan sains yang setara dengan hasil riset.” Kalau itu tidak bisa, saya tidak berharap ia mampu membuat ide baru
- Atau bisa juga diberi makalah yang penuh statistik tentang observasi eksperimen lalu diminta mereproduksi data mentah
Saya mendengar ada seorang peneliti yang menghabiskan 6 bulan untuk memverifikasi hasil sebuah makalah yang sudah diterbitkan. Pada akhirnya yang ia terima hanya satu kalimat: “terima kasih sudah menunjukkan itu”
Ia berkata pelan, “Sebagian pekerjaan itu penting bukan karena terlihat, tetapi karena mencegah orang lain berjalan ke arah yang salah”
Saya percaya, jika kita bahkan tidak mau memeriksa dengan hati-hati apakah prediksi sesuai dengan kenyataan, maka sehebat apa pun teknologi itu terlihat, ia hanyalah ilusi sesaat
- Mungkin ia tidak akan mendapat Nobel, tetapi dari sisi pencapaian dan nilai yang ditambahkan bagi umat manusia, ia jauh melampaui sebagian besar karyawan perusahaan. Semoga kita juga bisa mengatakan hal yang sama tentang pekerjaan kita selama 10 tahun terakhir
Bagian “menurut penyelidikan belakangan, kemungkinan ada kebocoran data” sepertinya sering dilupakan. Sampai ada bukti kuat yang bertentangan, semua orang harus mengasumsikan adanya kebocoran data
Bukan pembaca atau skeptikus yang bertanggung jawab membuktikan ada kebocoran; penulislah yang bertanggung jawab membuktikan tidak ada kebocoran
Pada dataset kecil, kebocoran data mudah terjadi. Bahkan pada dataset yang seluruhnya bisa dilihat dengan mata, kebocoran sangat mudah masuk, dan biasanya terjadi tanpa disadari. Faktor-faktor halus dengan mudah merusak data
Sekarang kita menangani dataset raksasa yang mustahil ditinjau seluruhnya oleh manusia. Kita juga tahu metode filtering tidak sempurna, jadi bagaimana bisa yakin tidak ada kebocoran? Anda bisa mengatakan sudah melakukan filtering, tetapi tidak bisa mengatakan tidak ada kebocoran
Selain itu, bahkan pada dataset yang dapat diakses pun kita terus menemukan kontaminasi. Dengan kata lain, terus muncul bukti bahwa hal semacam ini sering terjadi
Lalu mengapa kita terus berasumsi tidak ada kontaminasi? Karena hype? Jujur saja, ini terdengar seperti kebohongan kepada diri sendiri karena ingin percaya. Masalah seperti ini tidak bisa diperbaiki jika kita menipu diri sendiri
- Semua sistem punya masalah. Pertanyaan yang lebih baik adalah di mana letak ambang batas yang dapat diterima
  Misalnya, tingkat pembayaran tidak semestinya di Medicare dan Medicaid adalah 7,66%. Nilainya puluhan miliar dolar dan masih ada ruang perbaikan, tetapi itu bukan berarti seluruh sistem gagal. Dalam 93% kasus, perlindungan berjalan sesuai tujuan
  Model seperti ini juga mungkin serupa. Jika tingkat kontaminasi 10%, apakah seluruh sistem itu buruk, atau masih dalam tingkat yang bisa ditoleransi?
  [1]: https://www.cms.gov/newsroom/fact-sheets/fiscal-year-2024-im...
- Di mana letak beban pembuktian tidak menentukan apa yang seharusnya dipercaya sekuat yang sering diasumsikan orang di internet
Yang selama ini saya prediksi benar-benar terjadi: https://news.ycombinator.com/context?id=44041114 https://news.ycombinator.com/context?id=41786908
Sama seperti “AI bisa coding”. Kalau masalahnya tidak ada di training set, ia terus gagal secara spektakuler, dan orang-orang selalu terkejut
- Untuk sisi “AI bisa coding”, kalau dibuat jalur memutar sebenarnya bisa berjalan cukup jauh. Caranya dengan memperkuat workflow software engineer sungguhan dan menambahkan pengaman seperti linter dan test
  Ia tidak bisa mengerjakan bagian sulit seperti arsitektur, desain, dan review, tetapi bisa mengambil alih banyak sekali bagian repetitif dan yang sudah pernah diselesaikan, yang memakan sebagian besar waktu engineer. Karena quality assurance tetap dilakukan manusia, peningkatan produktivitas 2–5 kali tanpa kehilangan kualitas sangat mungkin terjadi
  Namun tanpa pengelolaan dan pengecekan, ia tidak bisa menggantikan keseluruhan pekerjaan manusia mana pun dengan benar. Masih sama sekali belum mendekati itu
“Di sebagian besar makalah deep learning yang saya baca, pakar domain tidak menelusuri hasilnya secara saksama untuk memeriksa kualitas output. Dari makalah-makalah yang tampak mengesankan, berapa banyak yang tidak akan bertahan saat diverifikasi secara teliti?”
Benarkah begitu? Saya pernah membaca beberapa makalah AI di bidang saya, dan setahu saya banyak pakar domain lain juga membacanya. Hanya saja, pekerjaan berbasis ilmu komputer/perangkat lunak tampaknya secara umum lebih mudah diverifikasi daripada biologi. Atau mungkin karena saya hampir tidak tahu apa-apa tentang biologi
- Verifikasi label biologis bisa dengan mudah memakan waktu bertahun-tahun. Contoh dalam tulisan asli lebih mirip kebetulan besar yang sangat beruntung, karena seseorang sudah menghabiskan bertahun-tahun untuk salah satu label protein yang diprediksi
  Tidak ada orang yang akan mempertaruhkan 3–5 tahun kariernya hanya untuk memverifikasi prediksi model yang acak
- Membaca makalah, memverifikasi hasil, dan mengesahkan akurasinya adalah hal yang berbeda. Saya juga membaca banyak makalah, tetapi biasanya baru melihat data dasar ketika ingin memakai ulang data itu untuk keperluan lain
  Dengan begitu, saya cenderung cukup cepat menemukan kesalahan pada label kebenaran. Tentu saja, sebagian besar model tidak cukup bagus sampai-sampai kesalahan seperti ini berdampak besar pada hasilnya
- Di linguistik, kesan saya orang-orang membaca makalah yang memakai teknik seperti ini dengan cukup teliti dan juga mengajukan kritik. Namun karena orang tidak menganggap linguis dengan serius, orang-orang di bidang terkait mengabaikan kritik tersebut
Nature Communications tidak boleh disebut “Nature”. Otoritasnya sama sekali berbeda. Dan altmetric juga tidak terlalu relevan. Kecuali kalau yang ingin diukur adalah hype publik
- Pembaruan: Sepertinya penulis membaca ini dan memperbaikinya
Ini sangat cocok dengan pengalaman LLM saya yang terbatas sebagai peneliti. Pemahaman tulisan dan ekspresi kalimat di permukaan memang sangat mengesankan
Namun mencapai jawaban terbaik yang mungkin, terutama untuk pertanyaan yang belum terpecahkan, adalah hal yang berbeda. Untuk pertanyaan yang biasanya bisa menghabiskan setengah hari tanpa menghasilkan kesimpulan, jawaban yang diberikan hampir seketika jarang memuaskan
Pertanyaan kompleks membutuhkan waktu untuk dieksplorasi. Sejauh ini, bahkan dalam situasi ketika LLM seharusnya tidak bisa menarik kesimpulan karena keterbatasan kemampuan, ia cenderung memberikan jawaban yang tampak percaya diri, kadang sepenuhnya salah, alih-alih mengakui keadaan yang belum terselesaikan itu
Tulisan Rachel Thomas yang sangat bagus
Ini tampak seperti argumen lain bahwa karena deep learning bergantung pada data latih yang merupakan representasi sangat lossy dari domain dasarnya, pada akhirnya ia hanya berfungsi sebagai pencarian informasi generatif. Dengan kata lain, stochastic parrot
Karena data genetik atau label tidak selalu merepresentasikan biologi sebagai domain dasar secara sempurna, outputnya bisa salah, tidak valid, atau tidak masuk akal
Dalam kasus ketika ia bekerja sangat baik, ada kebocoran data. Sebab LLM secara desain adalah alat pencarian informasi. Dari sudut pandang teori informasi, pada model apa pun ada “hal yang tidak diketahui bahwa ia tidak tahu” yang bersifat mendasar
Kesimpulan saya, ini lebih merupakan kesalahan dataset pelatihan daripada kesalahan algoritme
Manusia bekerja secara fleksibel dalam ranah bahasa alami, dan anak-anak pun bisa membaca serta menilai apakah teks masuk akal. Inilah yang menjelaskan keberhasilan model yang dilatih untuk pemrosesan bahasa alami
Namun di bidang yang data latihnya merepresentasikan domain dasar secara lossy, hasilnya pasti tidak sempurna
- Paradoks LLM modern adalah bahwa ia tidak merepresentasikan domain dasar secara langsung, tetapi bisa merepresentasikan informasi yang dapat disajikan dalam bentuk teks. Jadi ia merepresentasikan sebagian informasi, tetapi tidak selalu jelas apa persisnya informasi itu dan bagaimana ia direpresentasikan
  Ruang embedding dapat merepresentasikan hubungan antara kata, kalimat, dan paragraf, dan hal-hal ini bisa memuat informasi tentang domain dasar; karena itu, jika hubungan tersebut ditanyakan lewat teks, kita bisa mendapatkan jawaban yang masuk akal. Masalahnya, teks adalah cara pengodean yang berantakan, sehingga tidak selalu jelas apa yang direpresentasikan oleh hubungan itu
  Kelemahan lain adalah sifatnya yang generatif. Untuk membuatnya generatif, alih-alih meng-hardcode semua kemungkinan pertanyaan dan jawaban ke dalam database, sebagian data dialihkan ke algoritme, yaitu prediksi token berikutnya. Berkat itu, pertanyaan/prompt yang tidak presisi tetapi probabilistik menjadi mungkin, dan muncul keunggulan bahwa kita bisa menanyakan apa saja
  Namun tidak ada satu algoritme pun yang dapat mengodekan secara akurat semua kemungkinan jawaban untuk semua kemungkinan pertanyaan dalam satu domain. Karena itu, sebagian presisi informasi hilang. Begitulah saya melihat LLM saat ini
- Bahkan jika kita menyederhanakan diskusi dan menganggap pernyataan bahwa LLM adalah pencarian informasi generatif sepenuhnya benar, LLM akan tetap ada
  Coba pikirkan bagaimana developer junior di bawah rata-rata atau rata-rata bekerja dalam pemrograman. Mereka “mencari” informasi pemecahan masalah di Stack Overflow atau tutorial
  Memberikan alat otomasi AI yang dirancang dengan baik kepada setiap developer mirip dengan menugaskan satu developer junior untuk mendelegasikan pekerjaan membosankan dan sederhana. Tidak perlu khawatir junior tidak berkembang karena tugas-tugas sederhana. Jika alat seperti analisis kode statis dan pengujian tersedia memadai, alat AI akan cukup baik melakukan siklus mengerjakan tugas, menjalankan alat, lalu memperbaiki masalah
  Bukankah harga alat itu kira-kira 1/30 biaya developer junior? Maka kita bisa menghabiskan lebih banyak waktu untuk hal-hal penting, termasuk mengajari developer junior sungguhan
  Saya tidak menganggap AI sudah sepenuhnya sampai ke sana, tetapi menurut saya model dasar saat ini pun, jika dihubungkan dan dikombinasikan dengan benar, mungkin sudah cukup untuk mencapainya
- Saya penasaran apakah alur berpikir yang mengarah ke situasi yang dijelaskan Rachel Thomas juga berlaku sampai taraf tertentu di bidang lain. Ini tulisan penting dan saya setuju
Ini menyoroti dengan baik salah satu masalah inti dalam siklus hype AI saat ini. Kita mengoptimalkan perhatian, bukan akurasi
Dan ini bukan hanya masalah biologi. Pola serupa terlihat dalam penerapan machine learning di berbagai bidang, mulai dari ilmu iklim, hukum, hingga kedokteran

Deep learning mendapat sorotan, tetapi deep fact-checking diabaikan

Kontras antara makalah AI prediksi enzim dan verifikasi lanjutannya

Mengapa prediksi fungsi enzim itu sulit

Pendekatan Transformer dan keberhasilan yang tampak di permukaan

Kesalahan yang terungkap dan pola pengulangan

Peran pengetahuan domain yang ditunjukkan oleh kasus yciO

Membedakan “penyebaran fungsi yang diketahui” dan “penemuan fungsi yang benar-benar belum diketahui”

Rendahnya penghargaan untuk riset verifikasi data

Bacaan terkait

1 komentar

Opini Hacker News