Tertipu oleh Hype AI untuk Sains, Ini yang Saya Pelajari

(understandingai.org)

3 poin oleh GN⁺ 2025-05-21 | 1 komentar | Bagikan ke WhatsApp

Penulis, yang meneliti fisika plasma di Princeton, pada 2018 beralih arah karena melihat AI dapat mempercepat riset fisika, tetapi pada kenyataannya AI untuk menyelesaikan PDE jauh lebih rapuh daripada yang diharapkan
PINN tampak seperti pendekatan yang sederhana dan umum, tetapi mengubah sedikit saja contoh yang mudah membuatnya sulit memperoleh solusi akurat, dan stabilitasnya tidak dapat dijamin bahkan dengan tuning
Saat meninjau 76 studi tentang PDE dinamika fluida, dari makalah yang mengklaim lebih baik daripada analisis numerik standar, 60 makalah, 79% memakai baseline yang lemah, dan kasus peningkatan kecepatan besar bergantung pada perbandingan yang tidak adil
Penggunaan AI dalam sains meningkat dari 2% pada 2015 menjadi hampir 8% pada 2022, tetapi kenaikan itu mungkin lebih terkait dengan insentif sitasi, karier, dan perolehan pendanaan daripada sains itu sendiri
AI dapat mencetak hasil dalam pelipatan protein, prediksi cuaca, dan penemuan obat, tetapi generalisasi bahwa AI akan mempercepat sains secara revolusioner perlu dilihat dengan hati-hati karena survivorship bias, data leakage, baseline lemah, dan cherry-picking

Mengapa Saya Beralih dari Fisika Plasma ke AI

Pada 2018, saat berada di tahun kedua program doktor fisika plasma di Princeton, penulis mengubah fokus risetnya ke machine learning
- Tidak ada proyek konkret tertentu, tetapi ia berpikir mempercepat riset fisika dengan AI dapat memberi dampak lebih besar
- Ia juga menyebut gaji tinggi di bidang AI sebagai salah satu motivasi
Setelah itu, ia memilih masalah menyelesaikan persamaan diferensial parsial (PDE) dengan AI, yang disebut Yann LeCun sebagai “pretty hot topic”, sebagai topik riset
PDE adalah persamaan matematika yang memodelkan sistem fisika, dan penting dalam fisika komputasional serta simulasi rekayasa
- Laboratorium penulis menggunakan PDE untuk memodelkan perilaku plasma di dalam reaktor fusi nuklir dan di medium antarbintang
Model AI yang dipakai untuk menyelesaikan PDE adalah model deep learning kustom yang lebih mirip AlphaFold daripada ChatGPT

Kerapuhan yang Terungkap dalam Eksperimen PINN

Metode pertama yang dicoba adalah physics-informed neural network(PINN)
- Alih-alih merepresentasikan solusi PDE sebagai grid piksel, PINN merepresentasikan solusi sebagai jaringan saraf dan memasukkan persamaan ke dalam fungsi loss
- Makalah awal PINN mengklaim menunjukkan efektivitas pada masalah klasik seperti fluida, mekanika kuantum, sistem reaksi-difusi, dan gelombang air dangkal nonlinier, serta sudah disitasi ratusan kali
Meski tampak seperti metode umum yang sederhana dan elegan, eksperimen nyata tidak sesuai harapan
- Ketika salah satu contoh dari makalah awal yang berpengaruh, 1D Burgers’, diganti dengan PDE sederhana lain, 1D Vlasov, tidak muncul solusi yang tampak akurat
- Setelah banyak tuning, hasil yang terlihat masuk akal bisa diperoleh, tetapi pada PDE yang sedikit lebih kompleks seperti 1D Vlasov-Poisson, solusi yang layak tidak berhasil didapat
- Seorang teman di universitas lain juga mengatakan tidak memperoleh hasil bagus dengan PINN
Para penulis makalah PINN asli tampaknya juga mengamati bahwa pengaturan tertentu bisa menghasilkan hasil mengesankan pada satu persamaan, tetapi gagal pada persamaan lain
- Namun makalah tersebut tidak memuat contoh kegagalan PINN
- Penulis sendiri juga tidak menerbitkan eksperimen gagal itu sebagai makalah, dan hanya mempresentasikannya sebagai poster konferensi yang tidak banyak dikenal

Pelajaran dari PINN dan Penilaian Saat Ini

Pelajaran pertama adalah hasil riset AI tidak boleh diterima begitu saja
- Kebanyakan ilmuwan tidak bermaksud menipu siapa pun, tetapi insentif untuk menyajikan hasil yang menguntungkan sangat kuat sehingga pembaca bisa tersesat
- Penulis menyimpulkan bahwa makalah berdampak tinggi dengan hasil mengesankan justru harus dilihat lebih skeptis
Pelajaran kedua adalah bahwa kasus ketika metode AI gagal hampir tidak pernah dipublikasikan
- Butuh 2 tahun sampai makalah yang membahas mode kegagalan PINN muncul, dan makalah itu kini telah disitasi lebih dari 1.000 kali
- Ini mengisyaratkan bahwa banyak peneliti kemungkinan mengalami masalah serupa dengan PINN
Kesimpulan ketiga adalah PINN bukan pendekatan yang ingin dipakai penulis
- PINN dinilai sederhana dan elegan, tetapi terlalu tidak stabil, rewel, dan lambat
Makalah PINN asli, 6 tahun kemudian, kini mencatat 14.000 sitasi
- Menurut penulis, itu adalah makalah analisis numerik abad ke-21 yang paling banyak disitasi, dan tinggal 1–2 tahun lagi sebelum menjadi makalah analisis numerik paling banyak disitasi kedua secara keseluruhan
Untuk masalah menyelesaikan PDE secara langsung, kini secara luas diterima bahwa PINN umumnya tidak kompetitif dibandingkan metode analisis numerik standar, tetapi kinerjanya pada inverse problems masih diperdebatkan
- Para pendukung berargumen PINN sangat efektif untuk inverse problems
- Beberapa peneliti membantah gagasan ini dengan keras
- Penulis tidak tahu pihak mana yang benar, dan menilai PINN suatu hari mungkin dianggap sebagai gelembung sitasi raksasa

Optimisme Berlebihan yang Dibuat oleh Baseline Lemah

Dalam disertasi doktoralnya, penulis berfokus pada model deep learning yang memperlakukan solusi PDE sebagai kumpulan piksel di atas grid atau graf, seperti solver tradisional
- Pendekatan ini tampak lebih menjanjikan daripada PINN untuk PDE kompleks bergantung waktu yang diminati laboratoriumnya
- Beberapa makalah mengklaim dapat menyelesaikan PDE beberapa orde magnitudo lebih cepat daripada metode analisis numerik standar
Khususnya kasus PDE dinamika fluida seperti persamaan Navier-Stokes membuat penulis dan pembimbingnya bersemangat
- Persamaan yang menjelaskan plasma di dalam reaktor fusi nuklir juga memiliki struktur matematika serupa, sehingga peningkatan kecepatan serupa diharapkan
- Secara teori, ini dapat memungkinkan simulasi sistem yang lebih besar, optimasi desain yang lebih cepat, dan percepatan riset
Namun reliabilitas dan robustness model AI bisa menjadi masalah serius
- Jika simulasi yang lebih cepat kurang dapat dipercaya, perlu dipastikan apakah trade-off itu layak
- Upaya untuk membuat model lebih andal sebagian besar gagal, dan ini membuat penulis meragukan potensi AI sendiri untuk mempercepat PDE
Makalah-makalah berprofil tinggi menyatakan AI menyelesaikan persamaan Navier-Stokes beberapa orde magnitudo lebih cepat daripada metode analisis numerik standar, tetapi baseline yang dipakai bukanlah metode numerik tercepat
- Ketika dibandingkan dengan metode analisis numerik yang lebih maju, AI tidak lebih cepat, atau paling banyak hanya sedikit lebih cepat

Hasil Tinjauan 76 Makalah: 79% Memakai Baseline Lemah

Penulis dan pembimbingnya meninjau secara sistematis studi yang menggunakan AI untuk menyelesaikan PDE dinamika fluida dan menerbitkan sebuah makalah
Dari 76 makalah yang mengklaim lebih unggul daripada metode analisis numerik standar, 60 makalah, 79% menggunakan baseline lemah
- Tidak membandingkan dengan metode analisis numerik yang lebih maju, atau
- Tidak membandingkan dalam kondisi yang sama
Rasio baseline lemah: {p:79}
Semua makalah yang menunjukkan peningkatan kecepatan besar membandingkan dengan baseline lemah
- Semakin mengesankan hasilnya, semakin besar kemungkinan perbandingannya tidak adil
Hasil tinjauan juga kembali mengonfirmasi adanya reporting bias
- Peneliti cenderung tidak melaporkan hasil negatif
- Baseline lemah menciptakan hasil yang terlalu positif, dan reporting bias membuat hasil negatif kurang dilaporkan
Makalah ini memicu perdebatan seputar AI dalam sains komputasional dan rekayasa
- Lorena Barba melihat hasil ini sebagai bukti yang mendukung kekhawatiran tentang hype AI dan optimisme yang tidak ilmiah
- Stephan Hoyer dari Google Research menilai makalah ini merangkum dengan baik alasan ia berpindah dari AI for PDEs ke prediksi cuaca dan pemodelan iklim
- Johannes Brandstetter membantah bahwa AI dapat memberi hasil lebih baik pada aplikasi industri yang lebih kompleks, dan masa depan bidang ini tetap menjanjikan

Cara Validasi yang Dibutuhkan di Bidang PDE

AI suatu hari mungkin berguna untuk aplikasi tertentu terkait penyelesaian PDE
Untuk saat ini, tidak banyak alasan untuk optimis
- Metode AI tidak memiliki jaminan teoretis yang dimiliki metode analisis numerik standar
- Robustness yang teruji secara empiris juga kurang
Ada dua arah yang membutuhkan lebih banyak upaya
- Riset untuk menyamai tingkat reliabilitas metode analisis numerik
- Red teaming yang menguji metode AI secara agresif
Lembaga pendanaan riset perlu memberi insentif kepada ilmuwan untuk membuat challenge problem bagi PDE
- Kompetisi dua tahunan CASP, yang selama 30 tahun menyelaraskan dan memfokuskan riset di bidang pelipatan protein, diajukan sebagai model yang memungkinkan

Contoh Nyata AI Mempercepat Sains dan Batasannya

Pelipatan protein adalah contoh utama inovasi ilmiah berbasis AI
- Ini dibahas sebagai contoh yang terkait dengan siaran pers Nobel Kimia 2024
Ada juga contoh pencapaian lain
- Prediksi cuaca: prakiraan AI hingga 20% lebih akurat daripada prakiraan tradisional berbasis fisika, tetapi resolusinya masih rendah
- Penemuan obat: data awal menunjukkan obat yang ditemukan AI lebih berhasil pada uji klinis fase 1, tetapi tidak demikian pada fase 2
- Jika tren ini bertahan, tingkat keberhasilan keseluruhan hingga persetujuan obat dapat hampir berlipat ganda
Perusahaan AI, akademisi, lembaga pemerintah, dan media semakin sering menggambarkan AI bukan sekadar alat ilmiah yang berguna, melainkan teknologi yang akan memberi “transformational impact” pada sains
LLM saat ini, seperti ungkapan DeepMind, masih kesulitan dengan kreativitas dan penalaran yang lebih dalam yang diandalkan ilmuwan manusia
Jika suatu sistem AI canggih hipotetis suatu hari dapat mengotomatisasi sepenuhnya proses sains, itu akan mengubah dan mempercepat sains, tetapi penulis tidak berharap hal seperti itu terjadi segera atau benar-benar akan terjadi

Mengapa Ilmuwan Mengadopsi AI

Peningkatan penggunaan AI dalam sains saja tidak cukup untuk menyimpulkan bahwa AI berguna bagi sains
Alasan ilmuwan berpindah ke AI mungkin karena itu menguntungkan ilmuwan itu sendiri, bukan sains
- Penulis juga pada 2018 sungguh berpikir AI bisa berguna bagi fisika plasma, tetapi gaji tinggi, prospek kerja bagus, dan prestise akademik adalah motivasi besar
- Ia mengatakan pimpinan senior lembaga riset sering lebih tertarik pada potensi AI untuk menarik pendanaan daripada pertimbangan teknis
Riset lanjutan menunjukkan bahwa ilmuwan yang menggunakan AI lebih mungkin menerbitkan makalah dengan sitasi teratas, dan rata-rata mendapat 3 kali lebih banyak sitasi
Meski AI menghasilkan hasil mengesankan di dalam sains, itu tidak otomatis berarti AI telah melakukan sesuatu yang berguna bagi sains
- Dalam banyak kasus, itu mungkin hanya menunjukkan potensi AI untuk kelak berguna
Ilmuwan yang meneliti AI sering bekerja terbalik: alih-alih mencari masalah lalu mencari solusi, mereka menganggap AI adalah solusinya lalu mencari masalah untuk diselesaikan
- Pendekatan “hammer in search of a nail” ini dapat berujung pada masalah yang sudah terpecahkan atau masalah yang tidak menghasilkan pengetahuan ilmiah baru

Survivorship Bias dan Krisis Reproduksibilitas

Untuk menilai keberhasilan AI-for-science, kita harus melihat sains nyata, tetapi literatur ilmiah saja sulit dipercaya
Masalah pertama adalah survivorship bias
- Ada penilaian bahwa hampir tidak ada hasil negatif yang dipublikasikan dalam riset AI
- Jika kasus gagal hilang, upaya menilai dampak AI terhadap sains menjadi terdistorsi
Ini mirip dengan masalah yang dikenal dari krisis replikasi
- Jika hasil yang tidak signifikan secara statistik tersaring dari literatur, hal seperti efek pengobatan akan dinilai berlebihan
- Diskontinuitas tajam di sekitar -1,96 dan 1,96 dalam distribusi nilai z pada riset medis mengisyaratkan bahwa hasil di bawah ambang signifikansi tidak dipublikasikan atau data telah disesuaikan
Dalam AI-for-science, kriteria seleksinya bukan signifikansi statistik, melainkan lebih dekat pada apakah metode yang diajukan mengalahkan pendekatan lain atau berhasil melakukan tugas baru
- Karena itu, kasus AI yang berhasil sering dilaporkan, sedangkan hasil yang tidak berhasil hampir tidak pernah dipublikasikan
Arvind Narayanan dan Sayash Kapoor dari Princeton membuat katalog kesalahan metodologis bernama data leakage dari 648 makalah di 30 bidang
- Data leakage menyebabkan hasil yang terlalu optimistis pada setiap kasus
- Mereka menilai sains berbasis AI sedang menghadapi krisis reproduksibilitas

Empat Jebakan yang Menciptakan Optimisme Berlebihan

Bahkan contoh keberhasilan yang dipublikasikan pun dapat mengarah pada kesimpulan yang melebih-lebihkan potensi ilmiah AI
Rincian dan tingkat keparahan berbeda di tiap bidang, tetapi jebakan utama dapat diringkas menjadi empat kategori
- Data leakage
  - Jika data pelatihan dan evaluasi tercampur secara keliru, performa model tampak lebih tinggi daripada yang sebenarnya
- Baseline lemah
  - Jika AI diadu dengan pembanding yang lemah, bukan dengan metode analisis numerik mutakhir, selisih performa menjadi dibesar-besarkan
- Cherry-picking
  - Jika hanya pengaturan yang berhasil yang ditampilkan, mode kegagalan dan batas penerapan hilang dari literatur
- Pelaporan keliru
  - Konflik kepentingan, yaitu pihak yang mengevaluasi model AI juga mendapat manfaat dari evaluasi tersebut, tetap menjadi masalah inti
  - DeepMind pada 2023 mengklaim menemukan 2,2 juta struktur kristal dan memperluas materi stabil yang diketahui umat manusia sekitar satu orde magnitudo
  - Setelah itu, ilmuwan material menganalisis senyawa tersebut dan menilainya “mostly junk”, serta dengan sopan menyarankan bahwa makalah tersebut tidak melaporkan material baru
  - Makalah mahasiswa pascasarjana MIT Aidan Toner-Rodgers tentang penemuan material baru berbasis AI sempat dimasukkan sebagai contoh keberhasilan dalam draf, tetapi dihapus setelah MIT mengumumkan akan mengupayakan pencabutan karena kekhawatiran integritas riset
  - Dugaan penipuan yang jelas berbeda dari masalah metodologis halus yang dibahas dalam tulisan ini, tetapi fakta bahwa makalah tersebut mendapat perhatian besar dari media menunjukkan beragam insentif untuk melebih-lebihkan efektivitas teknik AI

Kesimpulan: Lebih Dekat ke Alat Bertahap yang Tidak Merata daripada Revolusi

Penggunaan AI dalam riset ilmiah meningkat cepat
- Tingkat penggunaan AI dalam seluruh publikasi ilmiah naik dari 2% pada 2015 menjadi hampir 8% pada 2022
- Tingkat penggunaan AI: {l:2,8}
- Adopsi meningkat cepat bukan hanya di ilmu komputer, tetapi juga di fisika, kimia, biologi, kedokteran, dan ilmu sosial
Dapat diakui bahwa AI bisa menciptakan terobosan ilmiah
- Kekhawatirannya ada pada skala dan frekuensi terobosan tersebut
- Belum jelas apakah AI benar-benar telah menunjukkan potensi yang cukup untuk memindahkan secara besar-besaran talenta, pendidikan, waktu, dan dana ke satu paradigma
Karena setiap bidang sains mengalami AI secara berbeda, generalisasi perlu dilakukan dengan hati-hati
Meski begitu, tiga pelajaran dari pengalaman penulis dapat berlaku di banyak bidang
- Peningkatan adopsi AI terjadi sebagian karena lebih menguntungkan ilmuwan daripada sains
- Karena hasil negatif hampir tidak pernah dipublikasikan, AI-for-science mengalami survivorship bias
- Hasil positif yang dipublikasikan cenderung terlalu optimistis tentang potensi AI
Apakah AI akan membalikkan penurunan produktivitas sains dan stagnasi kemajuan ilmiah masih belum diketahui
- Tanpa terobosan AI canggih yang besar, AI tampaknya lebih dekat ke alat biasa untuk kemajuan ilmiah yang bertahap dan tidak merata daripada alat revolusioner

1 komentar

GN⁺ 2025-05-21

Komentar Hacker News

Tulisan yang menarik. Selalu ada risiko bahwa teknik yang baru naik daun mendapat perhatian berlebihan dibanding nilai nyatanya.
Kalimat kunci dalam tulisan itu adalah bagian ini: “Kebanyakan ilmuwan tidak berniat menipu siapa pun, tetapi karena ada insentif kuat untuk menunjukkan hasil yang menguntungkan, pembaca tetap berisiko tertipu.” Memahami dalam struktur insentif seperti apa orang berbicara sering membantu saat menafsirkan ucapan mereka.
- Ada orang-orang yang sadar bahwa dengan menempelkan kata AI, mereka bisa menghasilkan banyak uang dan mendapatkan dana riset. Namun pada akhirnya, bukankah hampir semua perangkat lunak mengandung machine learning dalam kadar tertentu? Rasanya tidak ada yang baru, dan implementasi saat ini pun tidak terlalu hebat atau akurat.
Ini pada dasarnya tampak seperti pengulangan masalah lama di dunia akademik. Fokusnya bukan lagi pencarian kebenaran, melainkan jumlah sitasi dan karierisme; AI hanyalah satu topik lain tempat hal itu terjadi.
- Saya tidak ingin menggeneralisasi, tetapi karena sering berpindah-pindah di berbagai pusat HPC di Jerman, saya melihat banyak orang yang tersisih dari fisika berkumpul di sana, dan pola bahwa porsi besar dana riset AI yang dialokasikan terserap oleh mereka. Akibatnya banyak proyek ML4Science bermunculan.
  Secara pribadi ini terasa disayangkan. Pusat HPC tidak ada hanya untuk fisikawan, dan terutama jika ada dana riset AI di Jerman, menurut saya seharusnya lebih banyak dilakukan riset inti AI.
- Agar adil, saya melihat masalah karierisme ini lebih sebagai efek samping dari dunia akademik yang makin terpikat pada sektor swasta dan ikut mewarisi masalahnya.
  Jika ada satu hal yang saya pelajari saat bekerja sebagai pengembang perangkat lunak, itu adalah bahwa setiap keputusan diambil dari sudut pandang karieristis dan egoistis. Yang penting bukan apa yang terbaik, melainkan apa yang paling mengesankan dan membuat seseorang maju. Setelah pekerjaan selesai, itu bukan lagi masalah mereka, dan sebenarnya sulit menyalahkan siapa pun. Pola pikir ini begitu tersebar luas sehingga jika tidak ikut bermain, Anda jadi pihak yang dimanfaatkan. Orang lain akan melakukannya, dan pada akhirnya mereka akan melampaui Anda. Hasil akhirnya sama, hanya saja Anda yang lebih dirugikan.
- Saya tidak tahu dalam arti apa cerita ini bisa ditafsirkan sebagai “bukan lagi pencarian kebenaran.” Bukankah ini justru contoh yang sangat jelas tentang kebenaran yang dicari dan ditemukan?
- Saya benar-benar tidak mengerti mengapa kata “lagi” masuk di sini.
Saya cukup beruntung sempat mencoba beberapa solver analisis struktur mirip FEM berbasis AI.
Dalam kasus terbaik pun, untuk masalah linear dan deformasi kecil, hasilnya hanya lumayan. Ini seperti mendapatkan solusi yang cukup kasar dalam sekitar 30 detik, untuk model yang bisa memberi hasil mendekati solusi eksak dalam kira-kira 5 menit. Begitu mulai memasukkan unsur nonlinier, semuanya langsung runtuh.
Mungkin cukup untuk pemilihan konsep pada level yang sangat tinggi, tetapi bahkan itu pun tidak terlalu bagus. Saya cukup yakin sebagian di antaranya pada dasarnya cuma pendeteksi kelengkungan: garis lurus dibuat biru, area dengan kelengkungan besar dibuat merah, lalu sisanya diinterpolasi.
- Apakah model seperti ini bisa dipakai sebagai preconditioner untuk metode iteratif?
- Kalau begitu, rasanya lebih dekat ke solver “prinsip kedua”. Strukturnya tidak mampu mensintesis sesuatu yang belum pernah dilihatnya.
Saya sama sekali bukan pendukung AI, tetapi masalah bahwa hasil negatif tidak dipublikasikan dan semua orang melebih-lebihkan hasilnya dalam makalah riset, sayangnya, tidak terbatas pada AI. Ini adalah akibat dari cara ilmuwan dievaluasi dan industri penerbitan ilmiah yang, seperti media tradisional, haus akan audience.
Bagaimanapun juga, bukankah musim dingin sedang datang?
- Benar, ini bukan masalah yang hanya ada di AI. Namun di makalah AI, saya sering melihat ungkapan yang sebenarnya berarti “jika kita memasukkan satu triliun GPU dan menjalankannya selamanya, akan muncul {benchmark ajaib}.” Atau semacam “Jika dievaluasi pada dataset kehidupan nyata super-rahasia kami, yang kami klaim akan kami berikan jika diminta tetapi sebenarnya akan kami abaikan saat diminta, Anda bisa melihat grafik yang menunjukkan betapa pintarnya kami.”
  Tentu saja sering kali ini makalah untuk mengamankan posisi lebih dulu, tetapi kalau makalah seperti ini keluar dari perusahaan besar, meski ada cacat yang jelas, kita tidak bisa begitu saja mengabaikannya.
  Pada akhirnya ini adalah persaingan sumber daya. Sebagai mantan peneliti di universitas dengan anggaran kecil, kami tidak bisa bersaing. Kami seolah dipaksa memercayai angka-angka yang disampaikan dalam literatur sebagai “benchmark” tanpa reproduksibilitas.
- Sedikit lebih dari 15 tahun lalu, setelah menerbitkan makalah-makalah pertama tentang aplikasi praktis AI, saya pindah ke bidang lain, lalu belakangan terseret kembali.
  Saya setuju bahwa ini masalah sains secara umum, tetapi AI tampaknya menarik sangat banyak peneliti yang mengejar reputasi dan uang. Berdasarkan pengalaman saya yang terbatas, klaim yang dilebih-lebihkan dan cherry-picking data tampak lebih ekstrem, bahkan peneliti yang bertanggung jawab pun akhirnya sedikit melebih-lebihkan agar bisa bersaing.
- AI hanyalah magnet tren panas saat ini, jadi retakannya terlihat lebih jelas.
- Namun AI membuat penulisan makalah yang tampak meyakinkan jadi lebih mudah
Saya tidak begitu mengerti mengapa persepsi orang tentang AI/ML bisa begitu terbelah di tempat seperti HN
Saya belum pernah melihat hal seperti ini sebelumnya. Dulu pada dasarnya tidak ada sistem atau metode yang bisa melakukan hal seperti menghasilkan kode berdasarkan input teks
Minggu lalu saja, saya meminta skrip segmentasi gambar dengan UI dasar, dan Claude membuatkannya dalam waktu kurang dari 1 menit
Ada sangat banyak contoh yang bisa disebut inovatif. Seluruh stack pembuatan gambar benar-benar baru
Tulisan blog ini cukup adil, dan memang benar ada euforia berlebihan di topik ini. Namun, kalau hanya melihat para peneliti yang perlu menulis kode untuk riset, AI sudah bisa membuat mereka jauh lebih efisien
Lebih jauh lagi, saya melihat kita sudah memasuki era baru. Era ketika data kembali diperlakukan dengan sangat serius. Beberapa tahun lalu orang berkata “internet tidak pernah lupa”, tetapi tak lama kemudian kita sadar bahwa internet pun mulai lupa. Google menghapus halaman dan meniadakan fitur cache, dan rasanya mereka tidak lagi peduli karena tidak tahu bagaimana data seharusnya digunakan
Lalu AI muncul, dan data bukan hanya kembali menjadi raja; sekarang kita berada tepat di tengah era reinforcement. Jika kita memberi umpan balik, sistem memasukkan umpan balik itu ke dalam pembelajarannya
Topik AI/ML sedang digarap dari segala sisi: hardware, algoritme, kasus penggunaan, data, alat, protokol, dan seterusnya. Kita sedang mengintegrasikannya, membangun untuknya, dan membangun di atasnya; hanya butuh sedikit waktu. Meski begitu, laju kemajuannya benar-benar gila dan bikin terengah-engah
Apakah benar ada batas atasnya baru akan kita ketahui beberapa tahun lagi. Untuk melakukan jauh lebih banyak eksperimen arsitektur dan algoritme AI, kita membutuhkan lebih banyak GPU dan data center yang lebih besar. Bottleneck-nya jelas. Perusahaan besar pun melatih satu model besar selama berminggu-minggu atau berbulan-bulan
- Bagian “minggu lalu saja, saya meminta skrip segmentasi gambar dengan UI dasar, dan Claude membuatkannya dalam waktu kurang dari 1 menit” bagi kami lebih mirip menyalin-tempel dari Stack Overflow dengan cara yang keren. Jadi terdengar seperti “saya bertanya ke Google tentang restoran terdekat dan menemukannya dalam 500 ms. C64 saya tidak bisa melakukan itu”
  Itu memang mengesankan dan benar-benar berguna. Namun terdengar seolah-olah ia telah “belajar menavigasi dunia nyata sehingga bisa menyelesaikan semua masalah terkait”, padahal yang sebenarnya diselesaikan adalah “mencari dengan apik di database GIS”. Begitu kebaruannya memudar, yang terlihat mulai menjadi wujud sebenarnya, bukan hal yang kita bayangkan
  Untuk memperjelas poinnya, ketika Anda mengatakan “Claude membuatnya”, hal yang Anda bayangkan adalah AI “berpikir”, membuat ontologi, lalu bernalar di atasnya hingga sampai pada kesimpulan bahwa skrip ini adalah keluaran yang benar. Yang sebenarnya terjadi adalah input tersebut berkorelasi dengan output ini menurut pola yang dilihatnya dari triliunan contoh. Tidak ada ontologi dan tidak ada penalaran. Tentu saja itu tetap mengesankan dan sangat berguna, tetapi seiring waktu rasa takjubnya akan hilang. Batasannya sudah jelas
- Soal “saya tidak mengerti mengapa persepsi orang tentang AI/ML bisa begitu terbelah di tempat seperti HN”, itu karena dari sudut pandang masing-masing, semuanya adalah aktor rasional. Orang yang mengangkat AI maupun orang yang meredam euforia berlebih sama-sama punya alasan yang valid
  Ada dasar untuk melihat teknologi baru ini sebagai terobosan, dan ada pula dasar untuk waspada terhadap pencurian data berskala besar serta pengabaian privasi
  Pertama-tama, kita harus mengakui dan menghormati bahwa ada beragam pemikiran tentang persoalan apa pun. Singkirkan diri kita sendiri sejenak dari persamaan, dan pahami pihak yang berseberangan. Benar-benar pahami
  Kita harus berjalan cukup lama dengan memakai sepatu orang lain
- Mengenai pernyataan “kalau hanya melihat para peneliti yang perlu menulis kode untuk riset, AI sudah bisa membuat mereka jauh lebih efisien”, yang dibutuhkan ilmuwan bukanlah efisiensi, melainkan akurasi. Bug perangkat lunak sudah menjadi penyebab besar kesalahan ilmiah dan kurangnya reprodusibilitas; misalnya ada kasus seperti ini: https://www.vice.com/en/article/a-code-glitch-may-have-cause...
  Kualitas pemrograman di lingkungan riset terkenal sangat tidak merata, seperti halnya di industri, tetapi dalam riset, kesalahan kecil bisa merusak seluruh hasil penelitian. Di lingkungan seperti laboratorium, kita tidak bisa menulis perangkat lunak seperti pelukis impresionis, atau versi AI-nya. Kita benar-benar harus tahu apa yang kita masukkan
  Jika tidak peduli apakah hasilnya benar, AI bisa membuat Anda lebih efisien. Itu mungkin keren untuk membuat gambar acara voli pantai musim panas, tetapi untuk menulis kode di lingkungan ilmiah, itu gagasan yang membawa bencana
- Sebaliknya, narasi bahwa “AI akan merevolusi sains” terasa jauh melampaui tingkat yang didukung bukti
- HN selalu terbelah soal “seberapa nyata dan seberapa berlebihan teknologi yang sedang hype saat ini”
  Saya sudah melihat hal seperti ini berkali-kali, dan tergantung teknologi serta waktunya, saya pernah berada di sisi yang berbeda-beda
  Bagi saya ini tampak seperti adegan yang selalu saya lihat
Tulisan ini pada awalnya tampak menyiratkan bahwa AI untuk sains secara umum, atau setidaknya AI di bidang penulis, semuanya berlebihan. Namun keluhannya tampaknya diarahkan pada arsitektur tertentu bernama PINN, dan di bagian akhir ia juga mengatakan bahwa ia berhasil memakai model deep learning lain untuk menghitung PDE lebih cepat daripada metode numerik tradisional
- Masalahnya jauh lebih luas daripada PINN. Bahwa PINN buruk sudah lama diketahui secara luas. Namun kegagalan umum dalam memakai machine learning untuk persoalan fisika jauh lebih meluas
  Machine learning umumnya bersinar ketika ada cukup banyak data eksperimen untuk domain yang relatif sempit. Potensial antaratom berbasis machine learning yang sudah ada sejak 1990-an adalah salah satu contohnya. Pemodelan cuaca juga mungkin demikian, tetapi saya tidak ingin berkomentar tentang bidang itu. Atau ketika datanya luar biasa banyak dan kita melatih model yang benar-benar raksasa. Inilah yang kita sebut AI. Pada dasarnya ini juga alasan AlphaFold berhasil, dan AlphaFold pun tidak menghasilkan hasil yang baik jika diberi input yang jauh dari titik mana pun dalam data pelatihannya
  Namun sebagian besar machine learning untuk persoalan fisika berada di antara keduanya. Data eksperimen kurang, dan data simulasi terlalu mahal untuk dibuat sehingga tidak cukup. Modelnya juga tidak cukup besar, karena jika terlalu besar inferensinya akan menjadi lambat. Meski begitu, kita berharap model-model ini mempelajari rentang fisika yang sangat luas
  Setelah itu semua orang ikut naik kereta hype. Karena terlalu mudah untuk dicoba. Semua orang mendapatkan hasil zonk yang sama, tetapi tetap menerbitkannya. Jika laboratorium atau PI-nya cukup terkenal, atau jika masalahnya diformulasikan agar terlihat unik serta ilmiah dan matematis, hasilnya bisa masuk jurnal atau konferensi bagus dan banyak dikutip. Namun pada akhirnya hasilnya sama saja: sedikit banyak mereplikasi data pelatihan, lalu menyimpulkan bahwa masalah generalisasi perlu diteliti lebih lanjut oleh seseorang
- Penulis telah menerbitkan satu makalah utuh yang memberikan analisis sistematis terhadap beberapa model. Ada bagian tersendiri tentang itu. Jadi ini bukan hanya soal PINN
- Jika PINN diganti dengan solusi “AI” apa pun, tetap saja kemungkinan besar akan berlebihan
  Sejauh ini, penilaian realistis terhadap “AI” hanyalah mengakui bahwa ia berguna bagi pakar untuk sedikit melewati pekerjaan membosankan, dan output-nya harus diperiksa tiga kali
Bagian “setelah gagal selama beberapa minggu, saya mengirim pesan kepada teman di universitas lain, dan ia juga pernah mencoba PINN tetapi tidak mendapat hasil yang baik” tidak terlalu terkait langsung dengan AI, tetapi mengingatkan pada pelajaran yang terlambat saya pelajari saat melakukan riset di universitas. Kolaborasi berkelanjutan itu penting. Karena itu membantu kita menghindari menginjak lagi wilayah yang sudah gagal dicoba orang lain
- Bisa juga dilihat sebagai kebutuhan agar peneliti menerbitkan eksperimen yang gagal
- Ini alasan lain mengapa gagasan agen AI untuk sains terasa tidak terlalu masuk akal. Riset adalah kumpulan aktivitas yang sangat kolaboratif. Seberapa hebat seorang peneliti yang sangat baik dalam tinjauan literatur, tetapi tidak benar-benar berbicara dengan siapa pun dan tidak pergi ke konferensi?
Analisisnya bagus dan contohnya juga tepat. Masalah lain dalam riset terkait AI adalah bahwa cukup banyak makalah yang masih baru dan banyak di antaranya bahkan tidak diterbitkan di tempat yang “layak”, tetapi kalau melihat Google Scholar saja, makalah-makalah itu terus dikutip di mana-mana
Sulit mereproduksi hasil dan memeriksa validitas sebagian pernyataan, dan ada juga fakta bahwa penelitian 4 tahun lalu memakai satu set model, sementara pengujian sekarang memakai set model lain dengan data pelatihan yang berbeda. Sulit menetapkan apa yang benar-benar memengaruhi hasil, dan apakah kesimpulannya hanya berlaku pada sifat tertentu dari model lama atau bisa digeneralisasi
- Saya bukan ilmuwan atau peneliti, tetapi apa pun yang berbasis statistik dan interpretasi data langsung membuat saya curiga
Apakah judulnya berubah, atau saya mulai berhalusinasi
Judulnya adalah “I got fooled by AI-for-science hype—here's what it taught me”
- Benar, judulnya memang berubah. Secara pribadi, saya rasa menjadi lebih buruk. Itu diubah dari judul aslinya
  Di sini seharusnya judul asli lebih diutamakan kecuali ada masalah serius
  Judul asli itu tidak punya masalah serius. Kecuali jika merangkum secara akurat kritik hati-hati seorang mahasiswa doktoral terhadap kontribusi AI yang meragukan dalam riset sains dianggap sebagai masalah serius
- Bukan halusinasi: https://web.archive.org/web/20250520152757/https://news.ycom...
Tulisan ini tampaknya bukan tentang AI, melainkan tentang mengembangkan salah satu fungsi program doktoral yang jarang dibicarakan: kemampuan membaca klaim akademik
Klaim-klaim dalam makalah tidak mengejutkan. Sebab itu adalah produk alami dari struktur insentif campur aduk yang seiring waktu kita sebut “sains”. Perlu latihan dan waktu untuk menempatkan keluaran sains dalam konteks yang tepat, serta memahami bahwa “makalah” adalah produk dari sistem sosioteknis dengan segala kerumitannya

Tertipu oleh Hype AI untuk Sains, Ini yang Saya Pelajari

Mengapa Saya Beralih dari Fisika Plasma ke AI

Kerapuhan yang Terungkap dalam Eksperimen PINN

Pelajaran dari PINN dan Penilaian Saat Ini

Optimisme Berlebihan yang Dibuat oleh Baseline Lemah

Hasil Tinjauan 76 Makalah: 79% Memakai Baseline Lemah

Cara Validasi yang Dibutuhkan di Bidang PDE

Contoh Nyata AI Mempercepat Sains dan Batasannya

Mengapa Ilmuwan Mengadopsi AI

Survivorship Bias dan Krisis Reproduksibilitas

Empat Jebakan yang Menciptakan Optimisme Berlebihan

Data leakage

Baseline lemah

Cherry-picking

Pelaporan keliru

Kesimpulan: Lebih Dekat ke Alat Bertahap yang Tidak Merata daripada Revolusi

Bacaan terkait

1 komentar

Komentar Hacker News