Setelah Memverifikasi Ulang Makalah yang Mengklaim “Frontier AI Mengalahkan Tool Medis Khusus” — Kesesuaian Antarpenilai 0,10, Penilai Sekaligus Peserta

flamehaven01 · 2026-07-02T14:58:33+09:00

Ringkasan singkat Makalah "General-purpose large language models outperform specialized clinical AI tools on medical benchmarks" yang terbit di Nature Medicine pada 12 Juni 2026 menyatakan bahwa model frontier serbaguna seperti GPT-5.2, Gemini 3.1 Pro, dan Claude Opus 4.6 mengungguli tool AI khusus medis seperti OpenEvidence dan UpToDate AI OpenEvidence dan UpToDate AI adalah tool pendukung keputusan klinis yang digunakan dokter untuk mencari dan memakai bukti secara real-time saat praktik, dan sudah digunakan di lingkungan rumah sakit Makalah ini menyebar luas segera setelah dipublikasikan, dan setelah publikasi muncul dugaan konflik kepentingan: penulis mengoperasikan sendiri AI medis pesaing dan pernah meminta akses API ke OpenEvidence tetapi ditolak Setelah penulis artikel ini memverifikasi ulang metodologinya secara langsung, ditemukan beberapa cacat statistik yang membuat peringkat itu sendiri sulit didukung Struktur makalah dan kesimpulan di permukaan Evaluasi dilakukan dalam tiga tahap Evaluasi pengetahuan medis dengan 500 soal MedQA Evaluasi keselarasan klinis dengan 500 soal HealthBench Untuk 100 pertanyaan klinis nyata (RCQ), 12 klinisi AS melakukan total 1.800 penilaian Kesimpulannya adalah model frontier unggul atas tool klinis khusus di ketiga evaluasi, dan ukuran model serta metode alignment mungkin merupakan faktor yang lebih penting daripada tuning khusus domain Masalah reliabilitas penilaian Krippendorff's alpha, yang menunjukkan kesesuaian antarpenilai, berada di kisaran 0,10–0,20 pada RCQ Indikator ini berarti 0 jika setara dengan kebetulan, dan 1 jika ada kesepakatan sempurna; untuk dipakai membuat peringkat, biasanya dibutuhkan nilai minimal 0,67 Grafik utama makalah (Figure 2c, yang menunjukkan keunggulan relatif model) berasal dari rata-rata skor dengan tingkat kesepakatan yang rendah seperti ini Struktur panel penilai yang sekaligus menjadi objek evaluasi Evaluasi HealthBench memakai cara LLM menilai jawaban LLM lain, tetapi panel penilainya hanya terdiri dari tiga model yang juga menjadi objek evaluasi: GPT-5.2, Gemini 3.1 Pro, dan Claude Opus 4.6 Tool khusus klinis dikecualikan dari panel penilai HealthBench adalah benchmark yang dibuat OpenAI, dan GPT-5.2 milik OpenAI yang sama dinilai pada benchmark tersebut Self-preference bias, yaitu kecenderungan menilai diri sendiri atau model dari keluarga serupa secara lebih murah hati, sudah merupakan fenomena yang diketahui, dan struktur ini tidak memiliki mekanisme untuk menyaring bias tersebut Masalah yang mirip seperti sudah melihat lembar ujian sebelumnya MedQA dan HealthBench adalah data yang sudah lama dipublikasikan di internet Karena model frontier dilatih dengan teks internet dalam skala besar, ada kemungkinan model tersebut sudah pernah melihat soal dan jawabannya dalam proses pelatihan Makalahnya juga mengakui kemungkinan ini, tetapi tidak menghitung seberapa besar dampaknya terhadap hasil Masalah pemrosesan statistik Sebanyak 1.704 observasi, yaitu penilaian dari beberapa model dan beberapa evaluator terhadap pertanyaan yang sama, diperlakukan seolah-olah saling independen Skor yang berasal dari pertanyaan yang sama saling berkaitan karena tingkat kesulitan pertanyaan tersebut; jika ini diabaikan, terjadi pseudoreplication yang membuat hasil tampak lebih pasti secara statistik daripada kenyataannya Secara terpisah, hasil Fisher's exact test yang membandingkan tingkat penolakan UpToDate sebesar 19% dan tingkat penolakan Google AI Overview sebesar 6% tercantum sebagai P=0,10 dalam makalah Jika dihitung langsung dari data mentah (19/100 vs 6/100), nilai p sekitar 0,009. Berdasarkan tingkat signifikansi 0,05 yang dinyatakan makalah, ini merupakan perbedaan yang signifikan, dan tanpa pengungkapan metode koreksi, perbedaan ini perlu dijelaskan Masalah kondisi evaluasi yang berbeda sejak awal Model frontier dievaluasi dengan API deterministik pada temperature 0 Tool klinis dievaluasi lewat antarmuka browser. Hasilnya bisa berbeda setiap kali, dan prompt internalnya juga tidak diungkapkan Respons yang menolak menjawab dikecualikan dari agregasi. UpToDate menolak 19%, sehingga hanya skor untuk pertanyaan yang relatif lebih mudah yang tersisa, sedangkan model frontier hanya menolak 1–3%, sehingga skor untuk seluruh distribusi pertanyaan tetap masuk apa adanya Jika memakai benchmark lain, hasilnya berbeda Sebuah studi medRxiv terpisah menerapkan benchmark triase yang sama, yang menunjukkan ChatGPT Health meremehkan 51,6% situasi darurat nyata (undertriage), pada OpenEvidence Tingkat undertriage OpenEvidence adalah 12,5%, sekitar seperempat dari ChatGPT Health Bahkan untuk tool yang sama, hasil dapat sangat berbeda tergantung benchmark apa yang digunakan untuk mengevaluasinya. Pemilihan benchmark itu sendiri adalah variabel yang menentukan kesimpulan Mengapa makalah ini penting sekarang OpenEvidence sudah menjadi tool yang digunakan puluhan ribu dokter di AS setiap hari saat praktik. Perbandingan ini bukan pertanyaan akademis, melainkan pertanyaan tentang tool apa yang akan diadopsi rumah sakit hari ini Tahun 2026 adalah saat rumah sakit dan perusahaan asuransi benar-benar menandatangani kontrak pengadaan AI medis. Satu makalah benchmark bisa langsung dipakai sebagai dasar untuk menentukan kontrak dan keputusan adopsi Makalah yang terbit di Nature Medicine langsung memperoleh otoritas dan menyebar begitu dipublikasikan. Tinjauan ulang yang menemukan cacat struktural muncul beberapa hari setelah publikasi, tetapi klinisi sudah mengubah materi pelatihan pada hari itu juga Setelah masuk ke keputusan pengadaan atau pedoman klinis, meski cacatnya terungkap, membalikkan kontrak dan praktik membutuhkan waktu dan biaya Benchmark AI medis terus bermunculan, tetapi infrastruktur dan tenaga untuk memverifikasinya secara independen tidak mampu mengikuti kecepatannya. Ini bukan masalah satu makalah saja, melainkan masalah struktur yang akan berulang Kesimpulan Artikel ini tidak menyatakan bahwa arah makalah tersebut salah Namun, penilaian mandiri oleh panel, rendahnya kesesuaian antarpenilai, kemungkinan kontaminasi data pelatihan, dan kesalahan pemrosesan statistik terjadi secara bersamaan. Hasil dengan akumulasi cacat sebesar ini tidak boleh menentukan kontrak pengadaan dan pedoman klinis Makalahnya menyatakan keyakinan dalam kesimpulannya, tetapi datanya tidak menopang keyakinan tersebut. Masalahnya bukan niat penulis, melainkan struktur di mana klaim yang penuh keyakinan beredar lebih dulu tanpa verifikasi Saat AI medis mulai masuk ke rumah sakit, yang perlu tersedia terlebih dahulu bukan satu makalah benchmark, melainkan sistem audit independen untuk memverifikasi makalah tersebut. Dalam kondisi seperti sekarang, ketika kecepatan klaim melampaui kecepatan verifikasi, hal yang sama akan terulang pada makalah berikutnya

(flamehaven.space)

1 poin oleh flamehaven01 4 jam lalu | Belum ada komentar. | Bagikan ke WhatsApp

Ringkasan singkat

Makalah "General-purpose large language models outperform specialized clinical AI tools on medical benchmarks" yang terbit di Nature Medicine pada 12 Juni 2026 menyatakan bahwa model frontier serbaguna seperti GPT-5.2, Gemini 3.1 Pro, dan Claude Opus 4.6 mengungguli tool AI khusus medis seperti OpenEvidence dan UpToDate AI
OpenEvidence dan UpToDate AI adalah tool pendukung keputusan klinis yang digunakan dokter untuk mencari dan memakai bukti secara real-time saat praktik, dan sudah digunakan di lingkungan rumah sakit
Makalah ini menyebar luas segera setelah dipublikasikan, dan setelah publikasi muncul dugaan konflik kepentingan: penulis mengoperasikan sendiri AI medis pesaing dan pernah meminta akses API ke OpenEvidence tetapi ditolak
Setelah penulis artikel ini memverifikasi ulang metodologinya secara langsung, ditemukan beberapa cacat statistik yang membuat peringkat itu sendiri sulit didukung

Struktur makalah dan kesimpulan di permukaan

Evaluasi dilakukan dalam tiga tahap
- Evaluasi pengetahuan medis dengan 500 soal MedQA
- Evaluasi keselarasan klinis dengan 500 soal HealthBench
- Untuk 100 pertanyaan klinis nyata (RCQ), 12 klinisi AS melakukan total 1.800 penilaian
Kesimpulannya adalah model frontier unggul atas tool klinis khusus di ketiga evaluasi, dan ukuran model serta metode alignment mungkin merupakan faktor yang lebih penting daripada tuning khusus domain

Masalah reliabilitas penilaian

Krippendorff's alpha, yang menunjukkan kesesuaian antarpenilai, berada di kisaran 0,10–0,20 pada RCQ
Indikator ini berarti 0 jika setara dengan kebetulan, dan 1 jika ada kesepakatan sempurna; untuk dipakai membuat peringkat, biasanya dibutuhkan nilai minimal 0,67
Grafik utama makalah (Figure 2c, yang menunjukkan keunggulan relatif model) berasal dari rata-rata skor dengan tingkat kesepakatan yang rendah seperti ini

Struktur panel penilai yang sekaligus menjadi objek evaluasi

Evaluasi HealthBench memakai cara LLM menilai jawaban LLM lain, tetapi panel penilainya hanya terdiri dari tiga model yang juga menjadi objek evaluasi: GPT-5.2, Gemini 3.1 Pro, dan Claude Opus 4.6
Tool khusus klinis dikecualikan dari panel penilai
HealthBench adalah benchmark yang dibuat OpenAI, dan GPT-5.2 milik OpenAI yang sama dinilai pada benchmark tersebut
Self-preference bias, yaitu kecenderungan menilai diri sendiri atau model dari keluarga serupa secara lebih murah hati, sudah merupakan fenomena yang diketahui, dan struktur ini tidak memiliki mekanisme untuk menyaring bias tersebut

Masalah yang mirip seperti sudah melihat lembar ujian sebelumnya

MedQA dan HealthBench adalah data yang sudah lama dipublikasikan di internet
Karena model frontier dilatih dengan teks internet dalam skala besar, ada kemungkinan model tersebut sudah pernah melihat soal dan jawabannya dalam proses pelatihan
Makalahnya juga mengakui kemungkinan ini, tetapi tidak menghitung seberapa besar dampaknya terhadap hasil

Masalah pemrosesan statistik

Sebanyak 1.704 observasi, yaitu penilaian dari beberapa model dan beberapa evaluator terhadap pertanyaan yang sama, diperlakukan seolah-olah saling independen
Skor yang berasal dari pertanyaan yang sama saling berkaitan karena tingkat kesulitan pertanyaan tersebut; jika ini diabaikan, terjadi pseudoreplication yang membuat hasil tampak lebih pasti secara statistik daripada kenyataannya
Secara terpisah, hasil Fisher's exact test yang membandingkan tingkat penolakan UpToDate sebesar 19% dan tingkat penolakan Google AI Overview sebesar 6% tercantum sebagai P=0,10 dalam makalah
Jika dihitung langsung dari data mentah (19/100 vs 6/100), nilai p sekitar 0,009. Berdasarkan tingkat signifikansi 0,05 yang dinyatakan makalah, ini merupakan perbedaan yang signifikan, dan tanpa pengungkapan metode koreksi, perbedaan ini perlu dijelaskan

Masalah kondisi evaluasi yang berbeda sejak awal

Model frontier dievaluasi dengan API deterministik pada temperature 0
Tool klinis dievaluasi lewat antarmuka browser. Hasilnya bisa berbeda setiap kali, dan prompt internalnya juga tidak diungkapkan
Respons yang menolak menjawab dikecualikan dari agregasi. UpToDate menolak 19%, sehingga hanya skor untuk pertanyaan yang relatif lebih mudah yang tersisa, sedangkan model frontier hanya menolak 1–3%, sehingga skor untuk seluruh distribusi pertanyaan tetap masuk apa adanya

Jika memakai benchmark lain, hasilnya berbeda

Sebuah studi medRxiv terpisah menerapkan benchmark triase yang sama, yang menunjukkan ChatGPT Health meremehkan 51,6% situasi darurat nyata (undertriage), pada OpenEvidence
Tingkat undertriage OpenEvidence adalah 12,5%, sekitar seperempat dari ChatGPT Health
Bahkan untuk tool yang sama, hasil dapat sangat berbeda tergantung benchmark apa yang digunakan untuk mengevaluasinya. Pemilihan benchmark itu sendiri adalah variabel yang menentukan kesimpulan

Mengapa makalah ini penting sekarang

OpenEvidence sudah menjadi tool yang digunakan puluhan ribu dokter di AS setiap hari saat praktik. Perbandingan ini bukan pertanyaan akademis, melainkan pertanyaan tentang tool apa yang akan diadopsi rumah sakit hari ini
Tahun 2026 adalah saat rumah sakit dan perusahaan asuransi benar-benar menandatangani kontrak pengadaan AI medis. Satu makalah benchmark bisa langsung dipakai sebagai dasar untuk menentukan kontrak dan keputusan adopsi
Makalah yang terbit di Nature Medicine langsung memperoleh otoritas dan menyebar begitu dipublikasikan. Tinjauan ulang yang menemukan cacat struktural muncul beberapa hari setelah publikasi, tetapi klinisi sudah mengubah materi pelatihan pada hari itu juga
Setelah masuk ke keputusan pengadaan atau pedoman klinis, meski cacatnya terungkap, membalikkan kontrak dan praktik membutuhkan waktu dan biaya
Benchmark AI medis terus bermunculan, tetapi infrastruktur dan tenaga untuk memverifikasinya secara independen tidak mampu mengikuti kecepatannya. Ini bukan masalah satu makalah saja, melainkan masalah struktur yang akan berulang

Kesimpulan

Artikel ini tidak menyatakan bahwa arah makalah tersebut salah
Namun, penilaian mandiri oleh panel, rendahnya kesesuaian antarpenilai, kemungkinan kontaminasi data pelatihan, dan kesalahan pemrosesan statistik terjadi secara bersamaan. Hasil dengan akumulasi cacat sebesar ini tidak boleh menentukan kontrak pengadaan dan pedoman klinis
Makalahnya menyatakan keyakinan dalam kesimpulannya, tetapi datanya tidak menopang keyakinan tersebut. Masalahnya bukan niat penulis, melainkan struktur di mana klaim yang penuh keyakinan beredar lebih dulu tanpa verifikasi
Saat AI medis mulai masuk ke rumah sakit, yang perlu tersedia terlebih dahulu bukan satu makalah benchmark, melainkan sistem audit independen untuk memverifikasi makalah tersebut. Dalam kondisi seperti sekarang, ketika kecepatan klaim melampaui kecepatan verifikasi, hal yang sama akan terulang pada makalah berikutnya