3 poin oleh GN⁺ 2025-05-21 | 1 komentar | Bagikan ke WhatsApp
  • Berbeda dari ekspektasi terhadap pemanfaatan AI dalam riset fisika plasma, hasil penerapan nyata justru berpusat pada capaian yang dilebih-lebihkan dan berbagai keterbatasan
  • Metode pemecahan PDE (persamaan diferensial parsial) dengan AI seperti PINN belum menunjukkan keunggulan yang jelas dibanding metode numerik konvensional dalam hal keandalan dan performa
  • Karena baseline yang lemah (weak baseline) dan bias pelaporan, sebagian besar makalah tentang capaian AI dinilai terlalu positif dibanding kenyataannya
  • Pemanfaatan AI dalam sains memang meningkat pesat, tetapi bobot argumennya lebih condong pada kemungkinan kontribusi yang bertahap dan terbatas, alih-alih sebagai alat yang memimpin inovasi kemajuan sains
  • Karena struktur makalah ilmiah dan insentif peneliti, kasus kegagalan tidak dipublikasikan dan pelaporan berlebihan terus berulang, sehingga perlunya sikap skeptis yang mendasar saat menilai dampak ilmiah AI ditekankan

Pendahuluan dan latar belakang riset

  • Penulis, Nick McGreivy, setelah meraih gelar doktor fisika plasma di Princeton, beralih ke riset pemanfaatan machine learning dengan harapan bahwa AI dapat berkontribusi pada revolusi riset ilmiah, khususnya fisika
  • Ia tertarik pada kemungkinan apakah AI, seperti teknologi serbaguna semacam elektronik, internet, dan sirkuit terpadu, dapat mengubah sains secara luas dan mendasar
  • Dalam praktiknya, pada riset pemecahan PDE (persamaan diferensial parsial) menggunakan AI, ia mengalami hasil yang tidak memenuhi harapan jika dibandingkan dengan capaian yang dipublikasikan dalam makalah-makalah terkenal

Pengalaman menerapkan PINN (Physics-Informed Neural Network)

  • Di bidang pemecahan PDE dengan AI, PINN muncul cepat sebagai metode representatif, dan penulis juga mencoba pendekatan ini secara eksperimental
  • Makalah-makalah sebelumnya melaporkan bahwa PINN memberikan solusi yang efektif untuk berbagai masalah PDE di bidang fluida klasik, mekanika kuantum, sistem reaksi-difusi, dan lain-lain, tetapi dalam praktiknya ia mengalami hasil yang tidak stabil atau sangat tidak andal bahkan pada PDE yang sangat sederhana seperti 1D Vlasov
  • Perbaikan sulit dicapai hanya dengan tuning sederhana, dan pada PDE yang lebih kompleks seperti 1D Vlasov-Poisson, pendekatan ini bahkan gagal menghasilkan solusi yang memadai
  • Peneliti lain di sekitarnya juga mengalami kegagalan serupa, tetapi hasil negatif semacam ini hampir tidak pernah dipublikasikan sebagai makalah

Pelajaran dari eksperimen PINN

  • Bahkan penulis makalah awal yang berpengaruh pun menyadari bahwa PINN gagal pada pengaturan tertentu, tetapi hanya hasil yang meyakinkan yang dipublikasikan
  • Dalam ekosistem makalah ilmiah, praktik pelaporan yang berfokus pada hasil positif dan tidak dipublikasikannya eksperimen gagal terkait AI memperparah survivorship bias
  • PINN adalah konsep yang indah secara numerik, tetapi penulis berbagi pengalamannya meninggalkan pendekatan ini karena keterbatasan praktis seperti ketidakstabilan, sulitnya fine-tuning, dan penurunan kecepatan pemrosesan
  • Makalah aslinya telah menerima lebih dari 14.000 sitasi dan menjadi salah satu makalah paling banyak dikutip di bidang metode numerik, tetapi dalam pemecahan PDE nyata ia tidak memiliki keunggulan kompetitif dibanding metode yang sudah ada
  • Belakangan ada pula klaim bahwa PINN dapat efektif pada area tertentu seperti inverse problems, tetapi ada perdebatan di kalangan peneliti mengenai hal ini

Optimisme berlebihan yang dipicu oleh tolok ukur perbandingan yang tidak tepat

  • Setelah itu, penulis mencoba pendekatan deep learning yang, seperti teknik numerik tradisional, memperlakukan solusi PDE sebagai himpunan grid atau piksel graf
  • Banyak makalah mengklaim bahwa AI dapat menyelesaikan PDE hingga ribuan sampai puluhan ribu kali lebih cepat daripada metode yang ada, tetapi pada kenyataannya, dalam banyak kasus baseline yang dipakai sebagai pembanding hanyalah metode yang lemah
  • Hasil analisis terhadap makalah representatif menunjukkan bahwa dari 76 makalah yang diklaim menampilkan keunggulan AI, 60 di antaranya (79%) ternyata tidak membandingkannya secara adil dengan metode numerik konvensional yang cukup kuat
  • Karena baseline yang lemah dan hasil negatif yang tidak dipublikasikan, penilaian bahwa "AI menghasilkan terobosan revolusioner" terbukti cenderung lebih berlebihan daripada kondisi sebenarnya
  • Hasil riset terkait memicu kontroversi di dunia akademik dan industri secara luas; sebagian pihak menekankan arah riset masa depan dan penguatan potensi AI, sementara sebagian lain menyatakan perlunya kewaspadaan yang lebih besar terhadap masalah overestimasi saat ini

Peran dan batasan AI dalam sains

  • Contoh keberhasilan yang representatif antara lain prediksi pelipatan protein oleh AlphaFold, prakiraan cuaca (akurasi prediksi meningkat hingga 20%), dan pengembangan obat (tingkat keberhasilan fase 1 klinis meningkat), tetapi alih-alih inovasi luas yang menyeluruh, hasilnya lebih berupa kemajuan yang komplementer dan bertahap dibanding teknologi yang ada
  • Big tech global, media, dan kalangan akademik sering membingkai AI sebagai "alat revolusioner untuk inovasi ilmiah" atau bahkan "motor transformasi yang akan mengubah paradigma sains", tetapi pada tingkat AI saat ini ada batas yang jelas terhadap inovasi mendasar sebesar yang diharapkan

Motif adopsi AI dan masalah struktural dalam ekosistem riset

  • Alasan utama ilmuwan mengadopsi AI sering kali bukan demi kemajuan sains itu sendiri, melainkan demi capaian pribadi seperti gaji lebih tinggi, karier, sitasi makalah, dan perolehan dana riset
  • Dalam praktiknya, peneliti yang menggunakan AI terlihat memperoleh lingkungan yang lebih menguntungkan dibanding ilmuwan biasa dalam hal makalah dengan sitasi tinggi dan daya saing riset
  • Peneliti yang memanfaatkan AI terekspos pada jebakan struktural: alih-alih mendefinisikan "masalah ilmiah yang perlu diselesaikan", mereka justru bergerak mundur dengan mencari "masalah yang bisa diselesaikan dengan AI"
  • Akibatnya, fokus sering bergeser dari kemajuan sains yang nyata ke demonstrasi potensi AI, sehingga banyak kasus hanya menghasilkan masalah yang sebenarnya sudah terpecahkan atau sekadar efek samping tambahan

Keterbatasan struktural pelaporan makalah dan bias optimisme dalam sains

  • Karena hasil negatif tidak dilaporkan (survivorship bias), hanya kisah sukses pemanfaatan AI yang terus bermunculan sementara kegagalan tidak diungkap, sehingga evaluasi atas efek keseluruhan menjadi terdistorsi
  • Dalam struktur makalah, kesalahan atau bias sistematis seperti kebocoran data, baseline yang lemah, cherry-picking, dan hasil yang tidak dilaporkan berulang kali terjadi
  • Karena evaluator dan pihak yang berkepentingan berada dalam komunitas yang sama, penilaian performa dilakukan dalam struktur konflik kepentingan yang terkait langsung dengan keuntungan
  • Fenomena ini menekankan perlunya skeptisisme mendasar dan kebiasaan verifikasi kritis saat menilai dampak AI dalam sains, mirip dengan sikap "tidak langsung mempercayai hasil satu studi saja dalam makalah nutrisi"

Kesimpulan

  • Dalam jangka pendek, AI kemungkinan lebih tepat dipandang bukan sebagai alat revolusioner yang memimpin inovasi sains, melainkan sebagai sarana pelengkap yang bertahap dan selektif bagi pendekatan yang sudah ada
  • Karena insentif struktural dalam ekosistem riset, overestimasi, tidak dilaporkannya kegagalan, dan masalah baseline yang lemah, perlu selalu mempertahankan sudut pandang yang kritis dan skeptis saat mengevaluasi capaian ilmiah AI yang sebenarnya
  • Pesan yang disampaikan adalah bahwa inovasi AI yang ideal harus disertai reformasi struktural seperti perumusan tantangan, publikasi kasus kegagalan, dan pengembangan sistem perbandingan yang adil

1 komentar

 
GN⁺ 2025-05-21
Komentar Hacker News
  • Sempat bingung apakah judulnya berubah; judul saat ini adalah "I got fooled by AI-for-science hype—here's what it taught me"

    • Ternyata judulnya memang berubah, dan menurut saya malah jadi lebih buruk; saya lebih suka judul aslinya, dan saya rasa judul asli makalah ini tidak bermasalah. Isinya adalah mahasiswa doktoral yang menganalisis secara kritis contoh-contoh meragukan tentang kontribusi AI pada riset sains.

    • Bukan, itu memang benar-benar judul yang diubah; bahkan alamat arsipnya juga diberikan sebagai contoh.

  • Saya punya “keberuntungan” pernah memakai solver analisis struktur bergaya FEM berbasis AI; untuk masalah linear dengan deformasi kecil masih lumayan berguna, tapi begitu kompleksitas naik performanya langsung jatuh. Saat metode lama butuh 5 menit untuk memberi solusi akurat, ini hanya sanggup menyelesaikan secara kasar dalam 30 detik. Begitu diterapkan ke kasus nonlinier, hasilnya benar-benar hancur. Mungkin hanya bisa dipakai untuk pemilihan konsep tingkat sangat tinggi pun itu masih kurang memadai. Ada model yang pada dasarnya cuma seperti pendeteksi kelengkungan: yang lurus diberi biru, yang lengkungannya besar diberi merah, sisanya sekadar interpolasi.

    • Pada akhirnya terasa seperti solver “second principles”, dengan keterbatasan bahwa ia sama sekali tidak bisa menyelesaikan situasi baru yang belum pernah dilihat.

    • Saya jadi penasaran apakah model seperti ini bisa dipakai sebagai preconditioner dalam metode iteratif.

  • Selalu ada risiko ketika teknologi baru dan sedang panas mendapat perhatian berlebihan. Kutipan penting dari artikelnya adalah: “Kebanyakan ilmuwan tidak sengaja ingin menipu orang lain, tetapi ada tekanan kuat untuk menunjukkan hasil yang menguntungkan, sehingga pada akhirnya bisa menyesatkan.” Memahami insentif seseorang sangat berguna saat menafsirkan informasi.

    • Ada orang yang mencari uang dan pendanaan hanya dengan menyebut kata AI; padahal kebanyakan sebenarnya cuma perangkat lunak yang memakai machine learning, dan ini adalah pendekatan yang sudah ada sejak lama. Saya rasa teknologinya sendiri tidak sedemikian besar atau presisi.
  • Pada akhirnya ini hanyalah pengulangan masalah kronis di dunia akademik: lebih fokus pada jumlah sitasi dan kemajuan karier daripada pencarian kebenaran. AI cuma salah satu topik di dalamnya.

    • Saya tidak ingin menggeneralisasi, tetapi pola yang saya lihat setelah berkeliling ke beberapa pusat HPC di Jerman adalah banyak orang yang awalnya belajar fisika lalu tidak berhasil, dan sebagian besar anggaran terkait AI akhirnya jatuh ke tangan mereka sehingga proyek-proyek bergaya ML4Science bermunculan di mana-mana. Padahal pusat HPC tidak seharusnya hanya ada untuk fisikawan; saya menyayangkan konsentrasi anggaran seperti ini. Rasanya Jerman perlu lebih banyak berinvestasi pada riset AI yang sebenarnya.

    • Secara realistis, masalah karierisme ini adalah efek samping dari dunia akademik yang makin mengadopsi logika pasar swasta. Hal yang saya pelajari sebagai pengembang perangkat lunak adalah bahwa semua keputusan berpusat pada kepentingan diri sendiri dan karier. Semua orang hanya peduli pada apa yang membuat mereka terlihat hebat, lalu ketika pekerjaan selesai, salahnya dilempar ke orang lain. Kalau tidak melawan pola pikir ini, justru kita yang dirugikan, dan pada akhirnya hasilnya sama saja sementara diri sendiri yang rugi.

    • Saya sebenarnya tidak paham mengapa ungkapan "no longer" dipakai di sana.

  • Bagian “setelah beberapa minggu gagal, saya menghubungi teman di universitas lain dan ternyata dia juga tidak mendapat hasil bagus dengan PINNs” benar-benar menegaskan, terlepas dari AI, betapa pentingnya kolaborasi terus-menerus dalam riset. Itu membantu agar orang lain tidak perlu mengulang jalan buntu yang sama.

    • Peneliti seharusnya juga perlu memublikasikan eksperimen yang gagal sebagai makalah.

    • Ini alasan lain mengapa konsep agen AI untuk sains terasa kurang meyakinkan bagi saya: riset pada dasarnya adalah proses yang sangat kolaboratif. Sebagus apa pun seseorang meninjau literatur, saya ragu dia bisa menjadi peneliti yang baik tanpa benar-benar bertemu dan berdiskusi dengan orang lain.

  • Saya bukan pendorong AI, tetapi fakta bahwa hasil negatif tidak dipublikasikan dan semua makalah cenderung melebih-lebihkan diri sendiri bukan cuma masalah AI. Ini masalah cara ilmuwan dievaluasi dan struktur industri jurnal akademik. Seperti media tradisional, semuanya terobsesi menarik perhatian audiens. Bagaimanapun juga, rasanya musim dingin akan datang.

    • Sering kali makalah AI hanya mengulang klaim semacam “kalau Anda mengerahkan miliaran GPU dan menjalankannya selama waktu tak terbatas, hasil ajaib akan muncul” atau “kami mengujinya pada dataset nyata privat dan hasilnya yang terbaik.” Makalah dari perusahaan besar tidak bisa begitu saja diabaikan meski punya celah yang jelas. Pada akhirnya ini perang sumber daya; peneliti universitas dengan anggaran kecil seperti saya bahkan tidak bisa mereproduksinya dan hanya bisa percaya pada angka-angka yang ada di makalah.

    • Lima belas tahun lalu saya menulis makalah AI terapan lalu pindah ke bidang lain, dan belakangan kembali lagi. Ini masalah yang merata di semua bidang, tetapi AI khususnya menarik peneliti yang mengejar reputasi dan uang. Klaim berlebihan dan data yang diedit tampaknya juga lebih parah. Bahkan peneliti yang bertanggung jawab pun harus agak melebih-lebihkan kalau ingin tetap bersaing.

    • AI hanyalah magnet bagi tren yang sedang populer saat ini, sehingga masalah-masalah itu terlihat lebih jelas.

    • AI terutama mempermudah penulisan “makalah yang tampak meyakinkan”.

  • Saya heran kenapa persepsi soal AI/ML di HN bisa begitu terbelah tajam. Ini wilayah baru yang belum pernah ada sebelumnya; kemampuan menghasilkan kode hanya dari input teks dulu tidak ada. Baru-baru ini saya meminta claude membuat skrip segmentasi gambar lengkap dengan UI, dan itu jadi dalam satu menit. Ini bukan satu-dua contoh revolusioner saja. Pembuatan gambar juga terasa seperti dunia baru. Memang ada unsur berlebihan dalam artikel blog ini, tetapi dari sudut pandang peneliti, produktivitas kode lewat AI saja sudah sangat efisien. Yang lebih menarik lagi adalah perubahan cara pandang terhadap data: dulu orang bilang “internet tidak pernah lupa”, tetapi sekarang halaman benar-benar bisa dihapus dan fitur cache pun menghilang, jadi kita makin lupa cara memperlakukan data. Namun setelah AI muncul, nilai data kembali menonjol. Kita masuk ke era reinforcement di mana kita memberi umpan balik dan hasilnya tercermin. Perkembangan terjadi di semua arah: hardware, algoritme, data, alat, protokol, dan sebagainya. Kita masih butuh lebih banyak eksperimen, lebih banyak GPU, dan pusat data besar; saat ini masih ada bottleneck, dan perusahaan-perusahaan besar sedang melatih model besar selama berminggu-minggu atau berbulan-bulan.

    • Ungkapan “dibuatkan kode segmentasi gambar” itu pada dasarnya hanya salin-tempel data Stack Overflow dengan kemasan lebih mencolok; konteksnya sama seperti dulu saat kita mencari informasi lewat Google. Secara tampilan memang baru dan mengesankan, tetapi secara esensial rasanya hanya setara dengan mencari restoran di GIS. Di dunia nyata, tetap tidak ada reasoning; yang ada hanya keluaran korelasi berbasis data. Tetap berguna, tetapi batasannya juga jelas.

    • Soal mengapa suasana terhadap AI/ML di HN begitu terbelah dibanding teknologi lain, saya rasa itu perlu dipahami dari sudut pandang rasional masing-masing orang. Pandangan bahwa ini revolusioner dan kekhawatiran tentang pencurian data serta pengabaian privasi sama-sama punya dasar yang masuk akal. Penting untuk terlebih dahulu mengakui adanya beragam sudut pandang, menurunkan posisi kita sejenak, lalu berusaha sungguh-sungguh memahami posisi lawan bicara.

    • Peran dasar programmer adalah menerjemahkan bahasa manusia ke bahasa komputer, dan LLM jelas memasuki batas itu. Seberapa dalam penetrasinya masih belum pasti, tetapi penghalangnya sudah runtuh. Situasi ini bisa ditafsirkan mulai dari rasa takut sampai rasa krisis. Ini mengancam keterampilan berpendapatan tinggi yang sudah diasah selama bertahun-tahun; bahkan jika programmer tidak sepenuhnya tergantikan, bila hasil akhirnya hanya sekadar mempertahankan gaji ratusan ribu dolar dengan susah payah, itu pun sudah cukup terasa mengancam.

    • HN memang dari dulu selalu terbelah soal “apakah teknologi trendi saat ini benar-benar nyata atau cuma fatamorgana”. Perdebatan seperti ini berulang di berbagai teknologi, dan kadang posisi saya sendiri juga pernah berubah. Pada akhirnya saya merasa ini tidak jauh berbeda dari apa yang tampak di permukaan.

    • Sebaliknya, narasi bahwa “AI akan merevolusi sains” terasa berjalan terlalu jauh dibanding dasar buktinya.

  • Pada awal artikel kesannya seluruh AI yang dibesar-besarkan, tetapi yang sebenarnya dikritik adalah arsitektur tertentu bernama PINN. Di bagian akhir juga disebutkan adanya kemajuan model DL untuk menyelesaikan PDE dengan lebih cepat.

    • Ini bukan cuma masalah PINN, melainkan jauh lebih luas. Bahwa PINN kurang bagus sudah lama diketahui, tetapi kegagalan umum penggunaan ML untuk masalah fisika juga sangat meluas. Situasi di mana ML bekerja baik biasanya adalah (1) saat datanya sangat banyak dan domainnya sempit, seperti MLIP, atau (2) saat tersedia data dalam jumlah luar biasa besar dan model raksasa, seperti AlphaFold. Namun kebanyakan ML untuk masalah fisika berada di tengah-tengah itu: data eksperimen kurang dan simulasi mahal, ukuran dataset dan model pun tanggung. Akhirnya semua orang mencoba lalu gagal, tetapi tetap menerbitkan makalah. Jika berasal dari lab terkenal, PI terkenal, atau terlihat unik, jurnal bagus akan memuatnya dan sitasinya pun naik. Pada akhirnya yang tertinggal hanya keterbatasan mereplikasi sebagian data, dan orang lain harus fokus memperkuat generalisasi.

    • Apa yang dilakukan penulis tidak terbatas pada PINN. Dia juga menulis makalah yang menganalisis berbagai model secara sistematis, dan bahkan ada bagian terpisah untuk itu.

    • Ganti PINN dengan solusi AI apa pun, dan Anda tetap akan menemukan unsur yang dibesar-besarkan. Sejauh ini, penilaian realistis atas kegunaan AI adalah “otomatisasi tugas sederhana para ahli & perlu verifikasi tiga lapis”.

  • Analisis dan contoh yang sangat bagus. Masalah lain adalah bahwa banyak makalah AI meskipun baru dan tidak terlalu sering terbit di jurnal yang “resmi”, tetap mendapat banyak sitasi. Reproduksi maupun verifikasi klaim menjadi sangat sulit, karena metode riset dan data berubah tiap tahun. Jadi tidak jelas apakah kesimpulannya berasal dari karakteristik model lama atau benar-benar bisa digeneralisasi.

    • Saya bukan ilmuwan atau peneliti, tetapi hasil yang berbasis statistik atau interpretasi data selalu membuat saya mulai dari sikap skeptis.
  • Melihat nama pemilik blog (“Timothy B. Lee”), saya sempat kaget bahwa penemu HTTP dan web yang usianya lebih dari 70 tahun ternyata menjalankan blog secanggih ini.