Alat AI sedang menemukan kesalahan dalam makalah penelitian

(nature.com)

14 poin oleh GN⁺ 2025-03-09 | 5 komentar | Bagikan ke WhatsApp

Baru-baru ini, alat AI mulai menemukan kesalahan perhitungan, metodologi, dan referensi dalam makalah penelitian
Tahun lalu, hasil penelitian yang menyatakan bahwa peralatan masak plastik hitam mengandung bahan kimia penyebab kanker sempat diberitakan
- Namun, terungkap bahwa karena kesalahan matematika dalam penelitian tersebut, konsentrasi bahan kimia yang sebenarnya 10 kali lebih rendah dari batas aman
- Model kecerdasan buatan (AI) dapat menemukan kesalahan ini hanya dalam hitungan detik

Proyek pendeteksian kesalahan makalah penelitian berbasis AI

Black Spatula Project

Menganalisis sekitar 500 makalah dengan alat AI open source untuk mendeteksi kesalahan
Proyek ini dikoordinasikan oleh peneliti AI independen asal Kolombia, Joaquin Gulloso, dengan partisipasi 8 pengembang dan ratusan penasihat
Daftar kesalahan tidak dipublikasikan; jika ditemukan kesalahan, tim menghubungi peneliti secara langsung untuk mendorong perbaikan

YesNoError

Proyek yang dimulai dengan inspirasi dari Black Spatula Project
Dipimpin oleh pendiri sekaligus wirausahawan AI, Matt Schlicht
Beroperasi dengan pendanaan dari mata uang kripto khusus
Sejauh ini telah menyelesaikan analisis sekitar 37.000 makalah dalam dua bulan
Makalah yang ditemukan bermasalah ditandai di situs web, tetapi sebagian besar masih belum diverifikasi oleh pakar
Dalam jangka panjang, ada rencana verifikasi kesalahan melalui kolaborasi dengan ResearchHub (yang memberi imbalan kepada peneliti bergelar PhD dengan mata uang kripto)

Mendorong peneliti dan jurnal menggunakan alat AI

Peneliti didorong menggunakan alat AI sebelum mengirimkan makalah, dan jurnal sebelum menerbitkannya, agar kesalahan bisa dideteksi lebih awal
Diharapkan hal ini memperkuat keandalan ilmiah dengan mencegah kesalahan dan kecurangan penelitian

Respons dan kekhawatiran dari kalangan akademik

Para ahli integritas riset memberikan respons yang hati-hati namun positif terhadap proyek-proyek ini
Peneliti dari Tilburg University, Michèle Nuijten, menyampaikan kekhawatiran berikut:
- Jika akurasi alat AI tidak diverifikasi dengan jelas, penunjukan kesalahan yang keliru dapat merusak reputasi
Metailmuwan forensik dari Linnaeus University, James Heathers, menyatakan dukungannya sebagai berikut:
- "Jauh lebih mudah menulis makalah yang buruk daripada menariknya kembali"
- AI dapat berguna untuk menyaring makalah dan mendorong peninjauan lanjutan

Cara kerja alat AI

Menggunakan large language model (LLM) untuk mendeteksi kesalahan dalam makalah
- Mengekstrak informasi seperti tabel dan gambar dari makalah lalu membuat perintah (prompt) yang kompleks
- Model AI menganalisis makalah beberapa kali untuk mencari berbagai jenis kesalahan dan melakukan verifikasi silang atas hasilnya
- Biaya analisis per makalah: sekitar 15 sen hingga beberapa dolar, tergantung panjang makalah dan kompleksitas prompt

Masalah false positive

Black Spatula Project → sekitar 10% false positive
- Semua kesalahan perlu diverifikasi oleh pakar → kekurangan pakar menjadi hambatan terbesar
YesNoError → dari verifikasi 100 kesalahan matematika dalam 10.000 makalah, lebih dari 90% dipastikan sebagai kesalahan nyata
- YesNoError sedang bekerja untuk menurunkan tingkat false positive dan terus menerima masukan dari kalangan akademik

Kritik terhadap masalah false positive

Peneliti Linnaeus University, Nick Brown:
- Dari 40 makalah yang dianalisis YesNoError, false positive ditemukan pada 14 makalah → terutama masalah penulisan
- Kesalahan kecil dapat menimbulkan beban yang tidak perlu bagi dunia akademik
- "Kecuali teknologinya membaik secara drastis, akan dibutuhkan banyak pekerjaan tanpa manfaat yang jelas"

Tantangan dan harapan ke depan untuk alat AI

YesNoError berencana memperkenalkan mekanisme di mana pemegang mata uang kripto menentukan prioritas makalah yang akan ditinjau
- Ada kemungkinan makalah tentang topik yang sensitif secara politik (misalnya sains iklim) akan menjadi target
Peneliti Brown: "Jika alat AI benar-benar terbukti efektif, perubahan besar bisa terjadi di bidang penelitian tertentu"

5 komentar

dbs0829 2025-03-10

Makalah berkualitas rendah mungkin akan tersaring, tetapi di sisi lain saya khawatir ambang untuk makalah yang bagus juga akan makin tinggi, sehingga pada akhirnya bisa menjadi relatif kurang kreatif. Bahkan jika ada celah logis, terkadang justru dari situlah muncul ide-ide baru, jadi secara pribadi saya merasa ini bukan sesuatu yang benar-benar saya sambut.

mcdasa 2025-03-09

AI mungkin juga bisa salah, jadi saya penasaran bagaimana cara memverifikasi bahwa hal yang ditunjukkan oleh AI itu memang tidak keliru.

ndrgrd 2025-03-09

Dengan makin populernya LLM, tampaknya perubahan besar sedang terjadi di area yang sebelumnya sebagian besar didorong oleh permintaan akibat ketimpangan informasi.

bus710 2025-03-09

Saya jadi penasaran bagaimana kalau AI juga disuruh menganalisis berbagai kitab suci umat manusia, hehe

GN⁺ 2025-03-09

Komentar Hacker News

Jika AI dapat menemukan kesalahan yang jelas dalam makalah yang sudah diterbitkan, itu bisa digunakan sebagai bagian dari proses peninjauan. Penulis juga dapat menerapkannya pada karya mereka sendiri sebelum pengajuan, sehingga kualitas makalah bisa meningkat secara signifikan
- Poin pentingnya adalah para ahli, yaitu penulis dan penelaah sejawat, ikut terlibat dalam proses ini. Mereka dapat dengan mudah mengabaikan positif palsu, tetapi tetap bisa mendapat peringatan tentang kesalahan statistik atau hal-hal di luar bidang keahlian mereka
Saat ini situs web YesNoError memuat banyak positif palsu. Nick Brown, peneliti dari Linnaeus University, menyatakan bahwa 14 dari 40 makalah bermasalah adalah positif palsu
- Sebagian besar masalah tampaknya merupakan persoalan penulisan, dan banyak deteksi dinilai keliru
- Ia memperingatkan bahwa kecuali teknologi ini banyak membaik, hasilnya hanya akan menciptakan banyak pekerjaan tanpa manfaat yang jelas
Karena saat ini AI yang memimpin, orang bisa mengira bahwa sistem ini memeriksa penipuan atau logika yang salah. Kenyataannya, yang diperiksa adalah konsistensi internal dan konsistensi dengan data pelatihan
- Ini mungkin bagus untuk salah ketik, ungkapan yang menyesatkan, serta verifikasi silang fakta dan diagram, tetapi tidak akan banyak membantu terhadap data yang direkayasa atau kesimpulan yang tampak masuk akal tetapi salah
Ada usulan ide untuk menggunakan AI guna memetakan dampak makalah yang ditarik. Sistem bisa mengidentifikasi kesimpulan dari makalah yang ditarik yang sudah tidak lagi didukung, lalu memeriksa di mana kesimpulan itu muncul dalam makalah turunan
Apakah ingatan kolektif kita terlalu pendek? Apakah kita sudah melupakan masalah yang disebabkan oleh laporan bug buatan AI?
Disebutkan dua contoh dari proyek Black Spatula yang mendeteksi kesalahan besar
- Tidak diperlukan pipeline multi-agen yang kompleks; kesalahan semacam ini bisa dideteksi dengan satu prompt saja
Ide ini bagus, dan saya ingin menerapkannya pada laporan perusahaan saya sendiri untuk mendeteksi kesalahan yang jelas sebelum mengirimkannya ke atasan
- Namun, ada dua pendekatan yang ditekankan. Salah satunya adalah pendekatan skala kecil yang terlebih dahulu menghubungi penulis secara privat tanpa memublikasikan. Yang lain adalah memublikasikan lebih dulu, tanpa tinjauan manusia, dan memiliki mata uang kripto sendiri
YesNoError berencana membiarkan pemegang mata uang kripto menentukan makalah mana yang akan ditinjau lebih dulu
Ide ini sangat buruk. Lewati bagian pertama dan baca bagian "positif palsu"
Saya sangat skeptis terhadap nilainya. Sudah ada waktu yang terbuang untuk menanggapi klaim tak berdasar akibat "tinjauan" AI. Klaim seperti ini mungkin sudah ada sebelumnya, tetapi generator teks tahu cara berhalusinasi dengan istilah-istilah yang terdengar benar sehingga bisa meyakinkan orang awam dan amatir, dan itu membuatnya lebih menyebalkan untuk ditangani