- Dalam studi Harvard, model penalaran o1 dari OpenAI menunjukkan akurasi lebih tinggi daripada dokter manusia dalam diagnosis awal triase di IGD, dan LLM dinilai telah melampaui sebagian besar benchmark penalaran klinis
- Dalam eksperimen membaca rekam medis elektronik standar milik 76 pasien yang datang ke IGD rumah sakit di Boston, o1 menghasilkan diagnosis yang akurat atau sangat mendekati pada 67% kasus, sementara 2 dokter manusia mencatat 50–55%
- Ketika lebih banyak detail diberikan, akurasi AI naik menjadi 82%, dan manusia ahli berada di 70–79%, tetapi perbedaan ini tidak signifikan secara statistik
- AI juga mengungguli 46 dokter pada tugas perencanaan perawatan jangka panjang seperti terapi antibiotik atau perencanaan akhir hayat, dengan skor AI 89% dan dokter manusia yang memakai sumber referensi konvensional 34% pada 5 kasus klinis
- Studi ini hanya membandingkan data pasien yang bisa disampaikan lewat teks dan tidak menguji sinyal nonverbal, sehingga lebih dekat ke peran opini kedua berbasis dokumen daripada pengganti dokter di dunia nyata
Hasil utama eksperimen triase IGD Harvard
- Dalam studi Harvard, sistem AI menunjukkan kinerja lebih tinggi daripada dokter manusia dalam akurasi diagnosis pada situasi triase kedokteran gawat darurat
- Hasil yang dipublikasikan di Science berasal dari eksperimen yang membandingkan ratusan respons dokter dan AI, dan para ahli independen menilai AI menunjukkan “kemajuan nyata” dalam penalaran klinis
- Model bahasa besar (LLM) dinilai telah “melampaui sebagian besar benchmark penalaran klinis”
- Keunggulan AI tampak paling menonjol dalam situasi triase awal di IGD yang memiliki sedikit informasi dan menuntut keputusan cepat
Eksperimen diagnosis 76 pasien IGD
- Dalam eksperimen terhadap 76 pasien yang tiba di IGD rumah sakit di Boston, AI dan 2 dokter manusia membaca rekam medis elektronik standar yang sama lalu membuat diagnosis
- Rekam medis elektronik itu biasanya mencakup tanda vital, informasi demografis, dan beberapa kalimat dari perawat yang menjelaskan alasan pasien datang ke rumah sakit
- Model penalaran o1 dari OpenAI menemukan diagnosis yang akurat atau sangat mendekati pada 67% kasus, sementara dokter manusia mencatat akurasi 50–55%
- Saat lebih banyak detail diberikan, akurasi diagnosis AI naik menjadi 82%, sedangkan manusia ahli mencatat 70–79%, tetapi perbedaan ini tidak signifikan secara statistik
Eksperimen perencanaan perawatan jangka panjang
- AI juga mengungguli kelompok dokter manusia yang lebih besar pada tugas menyusun rencana perawatan jangka panjang, seperti mengusulkan terapi antibiotik atau merencanakan proses akhir hayat
- AI dan 46 dokter meninjau 5 studi kasus klinis, dan AI menyusun rencana yang secara signifikan lebih baik daripada dokter manusia yang menggunakan sumber referensi konvensional
- Skornya adalah 89% untuk AI dan 34% untuk dokter manusia yang menggunakan sumber konvensional seperti mesin pencari
Keterbatasan studi dan perubahan peran di layanan kesehatan
- Studi ini membandingkan manusia dan AI hanya berdasarkan data pasien yang bisa disampaikan dalam bentuk teks
- Kemampuan AI membaca sinyal nonverbal seperti tingkat rasa sakit pasien atau penampilan visual tidak diuji
- Karena itu, AI dalam studi ini lebih menjalankan peran klinisi yang memberi opini kedua berbasis dokumen daripada benar-benar menggantikan dokter IGD
- Arjun Manrai, yang memimpin laboratorium riset AI di Harvard Medical School, mengatakan hasil ini bukan berarti AI menggantikan dokter, melainkan menunjukkan sedang berlangsung “perubahan teknologi yang sangat mendalam” yang akan membentuk ulang kedokteran
- Adam Rodman, dokter di Beth Israel Deaconess medical centre di Boston tempat studi dilakukan, memandang AI LLM sebagai salah satu “teknologi paling berpengaruh dalam beberapa dekade”
- Rodman memperkirakan dalam 10 tahun ke depan AI tidak akan menggantikan dokter, melainkan bergabung dalam model layanan tiga pihak baru yang melibatkan dokter, pasien, dan sistem AI
Kasus klinis dan penalaran AI
- Dalam salah satu kasus pada studi Harvard, pasien menunjukkan bekuan darah di paru-paru dan gejala yang memburuk
- Dokter manusia menilai antikoagulan telah gagal, tetapi AI menangkap bahwa riwayat lupus pasien dapat menyebabkan peradangan paru-paru
- Penilaian AI itu kemudian terbukti benar
Penggunaan AI medis yang sudah menyebar
- Menurut studi yang dipublikasikan bulan lalu, sekitar 1 dari 5 dokter di AS sudah memakai AI untuk membantu diagnosis
- Di Inggris, 16% dokter menggunakan AI setiap hari, dan 15% lainnya menggunakannya setiap minggu
- Menurut survei terbaru Royal College of Physicians, salah satu penggunaan umum di kalangan dokter Inggris adalah pengambilan keputusan klinis
- Kekhawatiran terbesar dokter di Inggris adalah kesalahan AI dan risiko tanggung jawab
- Miliaran dolar telah diinvestasikan ke perusahaan AI kesehatan, tetapi pertanyaan tentang konsekuensi kesalahan AI masih belum terjawab
- Rodman mengatakan saat ini belum ada kerangka formal untuk menetapkan tanggung jawab, dan menekankan bahwa pasien pada akhirnya ingin keputusan hidup-mati dan keputusan terapi sulit tetap dipandu manusia
Penilaian pakar eksternal dan hal yang perlu diwaspadai
- Profesor Ewen Harrison, wakil direktur Centre for Medical Informatics di University of Edinburgh, menilai studi ini penting dan bahwa sistem seperti ini tidak lagi sekadar lulus ujian kedokteran atau menyelesaikan kasus uji buatan
- Harrison menilai AI mulai tampak berguna sebagai alat opini kedua bagi klinisi, terutama ketika perlu mempertimbangkan rentang diagnosis yang lebih luas dan memastikan tidak ada hal penting yang terlewat
- Dr Wei Xing dari School of Mathematical and Physical Sciences, University of Sheffield, menilai sebagian hasil lain menunjukkan dokter bisa secara tidak sadar mengikuti jawaban AI alih-alih berpikir mandiri
- Xing mengatakan kecenderungan ini bisa makin kuat jika AI digunakan lebih rutin di lingkungan klinis
- Xing juga menunjukkan kurangnya informasi tentang pada pasien seperti apa AI lebih sering gagal mendiagnosis, termasuk apakah AI lebih kesulitan pada pasien lanjut usia atau pasien yang bahasa ibunya bukan bahasa Inggris
- Xing mengatakan studi ini tidak membuktikan bahwa AI aman untuk penggunaan klinis sehari-hari, ataupun bahwa alat AI yang dapat dipakai bebas oleh publik seharusnya dijadikan pengganti nasihat medis
1 komentar
Komentar Hacker News
Sulit untuk terlalu percaya pada penelitian seperti ini karena terlalu mudah merusak benchmark.
Misalnya, dalam makalah terbaru AI mengalahkan ahli radiologi dalam membaca sinar-X, padahal AI itu sendiri bahkan tidak punya akses ke sinar-X: https://arxiv.org/pdf/2603.21687
Itu adalah benchmark visual tanya-jawab skala besar yang sudah ada untuk “pemahaman sinar-X dada umum”, dan bukan sesuatu yang sengaja dirusak.
Lagi pula, dalam pembacaan sinar-X, ahli radiologi manusia benar-benar melihat sinar-X-nya. Tetapi dalam konteks artikel ini, dokter manusia saat mendiagnosis pasien UGD juga tidak hanya menilai dari catatan.
Ini seperti memberi tugas yang tidak diperlukan, tidak familier, dan tidak pernah dilatih, lalu berkata “AI lebih baik”, jadi bahkan kalau catatannya tidak membocorkan jawaban lewat jalur aneh pun hasilnya tidak terlalu mengejutkan.
Bukan berarti penelitian ini pasti salah atau sengaja menyesatkan, tetapi saya tidak akan menarik kesimpulan kuat hanya dari satu penelitian.
Pada akhirnya kedokteran adalah soal pengetahuan, pengalaman, kecerdasan, dan mungkin pengenalan pola, dan untuk hal-hal seperti ini saya rasa model AI terbaik, terutama yang fokus khusus pada medis, akan jauh melampaui sebagian besar manusia, termasuk dokter.
Jika kita sudah membuat asumsi seperti itu untuk software engineer, mestinya ini juga berlaku di bidang ini, dan secara realistis, setiap kali saya bertemu dokter dalam beberapa bulan terakhir, termasuk dua kali di UGD, mereka semua memakai ChatGPT. Saya tidak bercanda, itu mengejutkan.
Jadi saya sungguh penasaran: jika kita kesampingkan tanggung jawab dan etika, murni dari sisi kemampuan, kemampuan spesifik atau kombinasi kemampuan apa yang membuat orang percaya bahwa AI medis papan atas tidak akan menyamai atau melampaui kinerja dokter manusia yang hebat secara permanen, atau setidaknya selama beberapa dekade?
Di sini ia salah sekitar setengah dari kasus triase kegawatan.
Angka di judul itu mengutip hasil diagnosis perkiraan yang dibuat hanya dari catatan perawat. Dugaan saya, pada studi kasus yang terseleksi seperti ini, model bahasa besar mungkin lebih berani menebak daripada dokter.
Itu tampak seperti kesimpulan yang sangat masuk akal, tetapi melewatkan kemungkinan lain. Apakah sinar-X justru membuat hasil lebih tidak akurat?
Saya terkejut karena baik artikel maupun makalahnya tampak cukup bombastis. Ini membuat dokter bersaing dalam cara yang sangat menguntungkan model bahasa besar, dan itu tidak mewakili praktik klinis.
Kasus penalaran seperti ini adalah alat pembelajaran, bukan benchmark untuk dokter.
Diagnosis pertama-tama bergantung pada pendeskripsian pasien yang akurat, dan informasi yang dikumpulkan berubah tergantung diagnosis bandingnya.
Salah satu kemampuan dokter adalah mengumpulkan informasi dari banyak sumber dan menyaring mana yang penting. Pasien bisa saja tidak mampu menjelaskan dengan jelas atau bahkan nonverbal, sehingga harus didapat dari pengasuh atau keluarga.
Anamnesis itu sendiri adalah keterampilan, begitu juga pemeriksaan fisik, tetapi di sini data semacam itu sudah diberikan.
Khususnya untuk pengenalan pola teks biasa pada pertanyaan yang mungkin sudah masuk ke data latih o1, sama sekali tidak mengejutkan jika ia mengungguli dokter, tetapi ini tidak terasa seperti perbandingan yang berguna secara klinis.
Menentukan tes apa yang perlu dilakukan, apakah perlu pencitraan, dan menyaring informasi yang tidak relevan dari riwayat penyakit juga merupakan kemampuan tersendiri, dan sulit dipisahkan dari pembentukan diagnosis.
Dalam beberapa kasus, secara probabilistik memilih X mungkin menguntungkan meski selisihnya kecil, dan pilihan yang lebih aman bisa jadi adalah menyingkirkan kemungkinan lain terlebih dahulu atau memulai terapi aman yang mencakup beberapa kemungkinan.
Sekadar mendapat “skor tinggi” dalam evaluasi ini belum tentu berarti praktik medis yang baik.
Saya tidak akan memberi bobot besar pada penelitian ini, tetapi saya rasa banyak orang tetap bisa mengakui bahwa model bahasa besar untuk diagnosis mandiri berguna.
Di AS sulit mendapatkan perhatian dan perawatan dari dokter, sehingga pada akhirnya orang memang harus melakukannya sendiri.
Sepuluh tahun lalu dokter mengeluh pasien datang membawa hasil pencarian Google, tetapi sekarang saya rasa memang tidak ada alternatif.
Misalnya saya pergi ke spesialis kaki untuk masalah kaki dan pergelangan kaki; masalah kaki didiagnosis dengan sinar-X, tetapi untuk masalah pergelangan kaki dia cuma angkat bahu karena tidak ada apa-apa di sinar-X.
Jatah 15 menit saya habis, dan saya pulang tanpa tahu penyebabnya maupun cara memperbaikinya. Setelah bertanya 5 menit ke model bahasa besar, saya mendapat penyebab pergelangan kaki yang masuk akal dan juga konsisten dengan diagnosis pada kaki.
Jika perusahaan layanan kesehatan memilih memakai AI untuk menambah jumlah pasien per hari alih-alih memperbaiki perawatan pasien, situasinya justru bisa memburuk.
“AI dan dua dokter manusia diminta membaca rekam medis elektronik standar yang sama” adalah kondisi yang membatasi kemampuan dokter manusia.
Dokter manusia bisa memperoleh jauh lebih banyak informasi hanya dengan mengamati pasien sebentar.
https://entropicthoughts.com/arithmetic-models-better-than-y...
AI meninjau catatan dan mengusulkan kandidat diagnosis, lalu dokter mengamati pasien dan meninjaunya.
Selain itu, penyakit umum memang benar-benar umum. Saya juga penasaran sejauh mana hal ini pada akhirnya membiaskan dokter maupun model bahasa besar.
Jika seseorang datang dengan pilek dan batuk lalu didiagnosis flu, kemungkinan besar itu memang benar.
Dokter dan perawat menyukainya karena tidak perlu mengetik sendiri, tetapi apakah mereka benar-benar meninjau kesalahan transkripsi yang cukup sering muncul di catatan itu benar-benar kacau.
Sekarang tinggal masukkan transkrip yang cacat itu ke sistem diagnosis AI. AI akan menerimanya seperti kitab suci, sementara dokter bisa berhenti dan berkata, “Tunggu, ini apa?”
Saya sudah memakai model bahasa besar untuk mendiagnosis saya, istri saya, bahkan anjing-anjing saya.
Saya yakin ada peluang besar untuk kedokteran hewan berbasis AI. Terutama jika nantinya bisa juga dipakai untuk meminta penawaran biaya konsultasi atau operasi dari klinik hewan setempat.
Harga klinik hewan lokal bisa berbeda lebih dari 10 kali lipat. Ibu saya yang berusia 80 tahun dan ibu mertua saya sering jadi korban dokter hewan yang menagih berlebihan, dan karena anjing peliharaan adalah bagian besar dari hidup mereka, mereka sangat rentan terhadap tekanan.
Saya tidak paham reaksi negatif di sini. Fakta bahwa komputer bisa mencapai sekitar 30% saja sudah mengejutkan.
Kebencian terhadap AI dan laboratorium frontier seperti OpenAI, atau afiliasi Google, tampak terlalu besar dan tidak masuk akal.
Menurut saya intinya adalah AI diberi catatan kasus pasien, tetapi tidak melihat pasien secara langsung.
Ini berbeda dari cara dokter dilatih, dan secara tidak perlu membatasi apa yang bisa dilakukan dokter. Sebagian besar nilai yang diberikan dokter datang dari berbicara dengan pasien.
Judulnya terdengar seperti AI akan menggantikan dokter, padahal kenyataannya lebih dekat ke “AI bisa lebih baik daripada dokter pada tugas sempit ini”.
Catatan yang dipakai kemungkinan besar juga ditulis oleh dokter sejak awal.
Imbalan sebenarnya adalah kombinasi dokter+AI harus menjadi lebih baik daripada dokter saja. Jika dokter harus membaca catatan kasus dan menarik kesimpulan, kini mereka bisa memanfaatkan usulan AI yang cukup bagus.
Semakin besar taruhannya, biasanya kita justru harus lebih kritis, bukan kurang.
Skeptisisme adalah alat yang sangat berguna, bahkan jika berlebihan.
Sebagai orang berusia 60 tahun, saya membuat sendiri alat bantu medis AI [1] dan sudah memakainya secara luas untuk berbagai gejala, dan saya sangat puas.
Setelah menganalisis beberapa hasil tes, alat itu bahkan merekomendasikan indikator yang pada awalnya tidak dipertimbangkan dokter.
Ini tidak akan menggantikan dokter, tetapi merupakan alat yang sangat berguna untuk diagnosis mandiri gejala ringan dan second opinion.
[1] https://mediconsulta.net (DeepSeek)
Saya penasaran apakah 33% itu merupakan subset dari 50~45%.
Jika bukan subset, seberapa serius kesalahannya? Apakah lebih banyak kematian? Waktu pemulihan lebih lama? Perbedaan itu dalam praktiknya menghasilkan apa?
Makalah: https://www.science.org/doi/10.1126/science.adz4433 (30 April 2026)
Seberapa besar selisih 67% dan 55% itu? Apakah penelitian dilakukan pada pasien yang sama seperti yang ditangani dokter?
Jika tidak membandingkan berdampingan bagaimana kedua pihak menilai tiap situasi dan mengapa mereka sampai pada kesimpulan berbeda, saya tidak tahu seberapa efektif ini bisa dianggap secara ilmiah.
Siapa yang bisa menjamin bahwa dalam 43% sisanya dokter tidak akan menemukan blind spot yang tidak dilihat AI?
Alat itu bukan untuk menggantikan, tetapi untuk menggabungkan upaya.
Melempar persentase seperti ini ke publik terasa cukup tidak bertanggung jawab.