OpenAI o1 mendiagnosis 67% pasien IGD dengan akurat, sementara dokter triase mencatat 50–55%

(theguardian.com)

1 poin oleh GN⁺ 2 jam lalu | 1 komentar | Bagikan ke WhatsApp

Dalam studi Harvard, model penalaran o1 dari OpenAI menunjukkan akurasi lebih tinggi daripada dokter manusia dalam diagnosis awal triase di IGD, dan LLM dinilai telah melampaui sebagian besar benchmark penalaran klinis
Dalam eksperimen membaca rekam medis elektronik standar milik 76 pasien yang datang ke IGD rumah sakit di Boston, o1 menghasilkan diagnosis yang akurat atau sangat mendekati pada 67% kasus, sementara 2 dokter manusia mencatat 50–55%
Ketika lebih banyak detail diberikan, akurasi AI naik menjadi 82%, dan manusia ahli berada di 70–79%, tetapi perbedaan ini tidak signifikan secara statistik
AI juga mengungguli 46 dokter pada tugas perencanaan perawatan jangka panjang seperti terapi antibiotik atau perencanaan akhir hayat, dengan skor AI 89% dan dokter manusia yang memakai sumber referensi konvensional 34% pada 5 kasus klinis
Studi ini hanya membandingkan data pasien yang bisa disampaikan lewat teks dan tidak menguji sinyal nonverbal, sehingga lebih dekat ke peran opini kedua berbasis dokumen daripada pengganti dokter di dunia nyata

Hasil utama eksperimen triase IGD Harvard

Dalam studi Harvard, sistem AI menunjukkan kinerja lebih tinggi daripada dokter manusia dalam akurasi diagnosis pada situasi triase kedokteran gawat darurat
Hasil yang dipublikasikan di Science berasal dari eksperimen yang membandingkan ratusan respons dokter dan AI, dan para ahli independen menilai AI menunjukkan “kemajuan nyata” dalam penalaran klinis
Model bahasa besar (LLM) dinilai telah “melampaui sebagian besar benchmark penalaran klinis”
Keunggulan AI tampak paling menonjol dalam situasi triase awal di IGD yang memiliki sedikit informasi dan menuntut keputusan cepat

Eksperimen diagnosis 76 pasien IGD

Dalam eksperimen terhadap 76 pasien yang tiba di IGD rumah sakit di Boston, AI dan 2 dokter manusia membaca rekam medis elektronik standar yang sama lalu membuat diagnosis
Rekam medis elektronik itu biasanya mencakup tanda vital, informasi demografis, dan beberapa kalimat dari perawat yang menjelaskan alasan pasien datang ke rumah sakit
Model penalaran o1 dari OpenAI menemukan diagnosis yang akurat atau sangat mendekati pada 67% kasus, sementara dokter manusia mencatat akurasi 50–55%
Saat lebih banyak detail diberikan, akurasi diagnosis AI naik menjadi 82%, sedangkan manusia ahli mencatat 70–79%, tetapi perbedaan ini tidak signifikan secara statistik

Eksperimen perencanaan perawatan jangka panjang

AI juga mengungguli kelompok dokter manusia yang lebih besar pada tugas menyusun rencana perawatan jangka panjang, seperti mengusulkan terapi antibiotik atau merencanakan proses akhir hayat
AI dan 46 dokter meninjau 5 studi kasus klinis, dan AI menyusun rencana yang secara signifikan lebih baik daripada dokter manusia yang menggunakan sumber referensi konvensional
Skornya adalah 89% untuk AI dan 34% untuk dokter manusia yang menggunakan sumber konvensional seperti mesin pencari

Keterbatasan studi dan perubahan peran di layanan kesehatan

Studi ini membandingkan manusia dan AI hanya berdasarkan data pasien yang bisa disampaikan dalam bentuk teks
Kemampuan AI membaca sinyal nonverbal seperti tingkat rasa sakit pasien atau penampilan visual tidak diuji
Karena itu, AI dalam studi ini lebih menjalankan peran klinisi yang memberi opini kedua berbasis dokumen daripada benar-benar menggantikan dokter IGD
Arjun Manrai, yang memimpin laboratorium riset AI di Harvard Medical School, mengatakan hasil ini bukan berarti AI menggantikan dokter, melainkan menunjukkan sedang berlangsung “perubahan teknologi yang sangat mendalam” yang akan membentuk ulang kedokteran
Adam Rodman, dokter di Beth Israel Deaconess medical centre di Boston tempat studi dilakukan, memandang AI LLM sebagai salah satu “teknologi paling berpengaruh dalam beberapa dekade”
Rodman memperkirakan dalam 10 tahun ke depan AI tidak akan menggantikan dokter, melainkan bergabung dalam model layanan tiga pihak baru yang melibatkan dokter, pasien, dan sistem AI

Kasus klinis dan penalaran AI

Dalam salah satu kasus pada studi Harvard, pasien menunjukkan bekuan darah di paru-paru dan gejala yang memburuk
Dokter manusia menilai antikoagulan telah gagal, tetapi AI menangkap bahwa riwayat lupus pasien dapat menyebabkan peradangan paru-paru
Penilaian AI itu kemudian terbukti benar

Penggunaan AI medis yang sudah menyebar

Menurut studi yang dipublikasikan bulan lalu, sekitar 1 dari 5 dokter di AS sudah memakai AI untuk membantu diagnosis
Di Inggris, 16% dokter menggunakan AI setiap hari, dan 15% lainnya menggunakannya setiap minggu
Menurut survei terbaru Royal College of Physicians, salah satu penggunaan umum di kalangan dokter Inggris adalah pengambilan keputusan klinis
Kekhawatiran terbesar dokter di Inggris adalah kesalahan AI dan risiko tanggung jawab
Miliaran dolar telah diinvestasikan ke perusahaan AI kesehatan, tetapi pertanyaan tentang konsekuensi kesalahan AI masih belum terjawab
Rodman mengatakan saat ini belum ada kerangka formal untuk menetapkan tanggung jawab, dan menekankan bahwa pasien pada akhirnya ingin keputusan hidup-mati dan keputusan terapi sulit tetap dipandu manusia

Penilaian pakar eksternal dan hal yang perlu diwaspadai

Profesor Ewen Harrison, wakil direktur Centre for Medical Informatics di University of Edinburgh, menilai studi ini penting dan bahwa sistem seperti ini tidak lagi sekadar lulus ujian kedokteran atau menyelesaikan kasus uji buatan
Harrison menilai AI mulai tampak berguna sebagai alat opini kedua bagi klinisi, terutama ketika perlu mempertimbangkan rentang diagnosis yang lebih luas dan memastikan tidak ada hal penting yang terlewat
Dr Wei Xing dari School of Mathematical and Physical Sciences, University of Sheffield, menilai sebagian hasil lain menunjukkan dokter bisa secara tidak sadar mengikuti jawaban AI alih-alih berpikir mandiri
Xing mengatakan kecenderungan ini bisa makin kuat jika AI digunakan lebih rutin di lingkungan klinis
Xing juga menunjukkan kurangnya informasi tentang pada pasien seperti apa AI lebih sering gagal mendiagnosis, termasuk apakah AI lebih kesulitan pada pasien lanjut usia atau pasien yang bahasa ibunya bukan bahasa Inggris
Xing mengatakan studi ini tidak membuktikan bahwa AI aman untuk penggunaan klinis sehari-hari, ataupun bahwa alat AI yang dapat dipakai bebas oleh publik seharusnya dijadikan pengganti nasihat medis

1 komentar

GN⁺ 2 jam lalu

Komentar Hacker News

Sulit untuk terlalu percaya pada penelitian seperti ini karena terlalu mudah merusak benchmark.
Misalnya, dalam makalah terbaru AI mengalahkan ahli radiologi dalam membaca sinar-X, padahal AI itu sendiri bahkan tidak punya akses ke sinar-X: https://arxiv.org/pdf/2603.21687
Itu adalah benchmark visual tanya-jawab skala besar yang sudah ada untuk “pemahaman sinar-X dada umum”, dan bukan sesuatu yang sengaja dirusak.
Lagi pula, dalam pembacaan sinar-X, ahli radiologi manusia benar-benar melihat sinar-X-nya. Tetapi dalam konteks artikel ini, dokter manusia saat mendiagnosis pasien UGD juga tidak hanya menilai dari catatan.
Ini seperti memberi tugas yang tidak diperlukan, tidak familier, dan tidak pernah dilatih, lalu berkata “AI lebih baik”, jadi bahkan kalau catatannya tidak membocorkan jawaban lewat jalur aneh pun hasilnya tidak terlalu mengejutkan.
Bukan berarti penelitian ini pasti salah atau sengaja menyesatkan, tetapi saya tidak akan menarik kesimpulan kuat hanya dari satu penelitian.
- Untuk penelitian spesifik ini saya setuju, tetapi dalam jangka panjang saya kurang paham dengan gagasan bahwa dokter akan lebih baik daripada model AI.
  Pada akhirnya kedokteran adalah soal pengetahuan, pengalaman, kecerdasan, dan mungkin pengenalan pola, dan untuk hal-hal seperti ini saya rasa model AI terbaik, terutama yang fokus khusus pada medis, akan jauh melampaui sebagian besar manusia, termasuk dokter.
  Jika kita sudah membuat asumsi seperti itu untuk software engineer, mestinya ini juga berlaku di bidang ini, dan secara realistis, setiap kali saya bertemu dokter dalam beberapa bulan terakhir, termasuk dua kali di UGD, mereka semua memakai ChatGPT. Saya tidak bercanda, itu mengejutkan.
  Jadi saya sungguh penasaran: jika kita kesampingkan tanggung jawab dan etika, murni dari sisi kemampuan, kemampuan spesifik atau kombinasi kemampuan apa yang membuat orang percaya bahwa AI medis papan atas tidak akan menyamai atau melampaui kinerja dokter manusia yang hebat secara permanen, atau setidaknya selama beberapa dekade?
- Menariknya, dalam penelitian terbaru yang menggunakan ChatGPT Health, hasilnya cukup berbeda: https://www.nature.com/articles/s41591-026-04297-7
  Di sini ia salah sekitar setengah dari kasus triase kegawatan.
- Kalau membaca artikelnya sampai akhir, ketika dokter dan model bahasa besar sama-sama diberi catatan kasus lengkap, selisihnya hilang menurut ambang signifikansi statistik.
  Angka di judul itu mengutip hasil diagnosis perkiraan yang dibuat hanya dari catatan perawat. Dugaan saya, pada studi kasus yang terseleksi seperti ini, model bahasa besar mungkin lebih berani menebak daripada dokter.
- Dokter memang bisa melewatkan sesuatu karena bias kognitif manusia, dan tampaknya masuk akal bahwa orang mudah terpaku pada pola yang paling familier bagi mereka.
- Saya belum membaca penuh makalah yang ditautkan, tetapi asumsi bahwa tanpa akses ke sinar-X hasilnya hanyalah halusinasi atau fatamorgana itu menarik.
  Itu tampak seperti kesimpulan yang sangat masuk akal, tetapi melewatkan kemungkinan lain. Apakah sinar-X justru membuat hasil lebih tidak akurat?
Saya terkejut karena baik artikel maupun makalahnya tampak cukup bombastis. Ini membuat dokter bersaing dalam cara yang sangat menguntungkan model bahasa besar, dan itu tidak mewakili praktik klinis.
Kasus penalaran seperti ini adalah alat pembelajaran, bukan benchmark untuk dokter.
Diagnosis pertama-tama bergantung pada pendeskripsian pasien yang akurat, dan informasi yang dikumpulkan berubah tergantung diagnosis bandingnya.
Salah satu kemampuan dokter adalah mengumpulkan informasi dari banyak sumber dan menyaring mana yang penting. Pasien bisa saja tidak mampu menjelaskan dengan jelas atau bahkan nonverbal, sehingga harus didapat dari pengasuh atau keluarga.
Anamnesis itu sendiri adalah keterampilan, begitu juga pemeriksaan fisik, tetapi di sini data semacam itu sudah diberikan.
Khususnya untuk pengenalan pola teks biasa pada pertanyaan yang mungkin sudah masuk ke data latih o1, sama sekali tidak mengejutkan jika ia mengungguli dokter, tetapi ini tidak terasa seperti perbandingan yang berguna secara klinis.
Menentukan tes apa yang perlu dilakukan, apakah perlu pencitraan, dan menyaring informasi yang tidak relevan dari riwayat penyakit juga merupakan kemampuan tersendiri, dan sulit dipisahkan dari pembentukan diagnosis.
- Kita juga perlu melihat analisis kasus salah diagnosis. Tujuan dokter manusia bukan mencapai akurasi tertinggi, melainkan mengurangi total bahaya bagi pasien.
  Dalam beberapa kasus, secara probabilistik memilih X mungkin menguntungkan meski selisihnya kecil, dan pilihan yang lebih aman bisa jadi adalah menyingkirkan kemungkinan lain terlebih dahulu atau memulai terapi aman yang mencakup beberapa kemungkinan.
  Sekadar mendapat “skor tinggi” dalam evaluasi ini belum tentu berarti praktik medis yang baik.
Saya tidak akan memberi bobot besar pada penelitian ini, tetapi saya rasa banyak orang tetap bisa mengakui bahwa model bahasa besar untuk diagnosis mandiri berguna.
Di AS sulit mendapatkan perhatian dan perawatan dari dokter, sehingga pada akhirnya orang memang harus melakukannya sendiri.
Sepuluh tahun lalu dokter mengeluh pasien datang membawa hasil pencarian Google, tetapi sekarang saya rasa memang tidak ada alternatif.
Misalnya saya pergi ke spesialis kaki untuk masalah kaki dan pergelangan kaki; masalah kaki didiagnosis dengan sinar-X, tetapi untuk masalah pergelangan kaki dia cuma angkat bahu karena tidak ada apa-apa di sinar-X.
Jatah 15 menit saya habis, dan saya pulang tanpa tahu penyebabnya maupun cara memperbaikinya. Setelah bertanya 5 menit ke model bahasa besar, saya mendapat penyebab pergelangan kaki yang masuk akal dan juga konsisten dengan diagnosis pada kaki.
- Saya tidak menganggap penggunaan model bahasa besar di medis sebagai solusi yang tepat untuk masalah layanan kesehatan di AS.
  Jika perusahaan layanan kesehatan memilih memakai AI untuk menambah jumlah pasien per hari alih-alih memperbaiki perawatan pasien, situasinya justru bisa memburuk.
“AI dan dua dokter manusia diminta membaca rekam medis elektronik standar yang sama” adalah kondisi yang membatasi kemampuan dokter manusia.
Dokter manusia bisa memperoleh jauh lebih banyak informasi hanya dengan mengamati pasien sebentar.
- Bukankah hal yang sama juga bisa dikatakan untuk AI?
- Sebaliknya, ada juga ungkapan bahwa “jarang ada sesuatu yang lebih berbahaya daripada ahli yang punya akses ke materi yang terbuka untuk interpretasi semaunya, seperti wawancara klinis”.
  https://entropicthoughts.com/arithmetic-models-better-than-y...
- Setuju. Menurut saya cara terbaik memakai teknologi ini adalah menggabungkan kekuatan kedua pihak.
  AI meninjau catatan dan mengusulkan kandidat diagnosis, lalu dokter mengamati pasien dan meninjaunya.
  Selain itu, penyakit umum memang benar-benar umum. Saya juga penasaran sejauh mana hal ini pada akhirnya membiaskan dokter maupun model bahasa besar.
  Jika seseorang datang dengan pilek dan batuk lalu didiagnosis flu, kemungkinan besar itu memang benar.
- Ini terasa seperti pengamatan yang sangat penting. Selain itu, akan menarik juga untuk memasukkan video pendek atau foto agar bisa dimanfaatkan AI.
- Sebagai tambahan, jaringan layanan kesehatan sekarang juga mendorong dokter memakai perangkat lunak transkripsi AI untuk input rekam medis.
  Dokter dan perawat menyukainya karena tidak perlu mengetik sendiri, tetapi apakah mereka benar-benar meninjau kesalahan transkripsi yang cukup sering muncul di catatan itu benar-benar kacau.
  Sekarang tinggal masukkan transkrip yang cacat itu ke sistem diagnosis AI. AI akan menerimanya seperti kitab suci, sementara dokter bisa berhenti dan berkata, “Tunggu, ini apa?”
Saya sudah memakai model bahasa besar untuk mendiagnosis saya, istri saya, bahkan anjing-anjing saya.
Saya yakin ada peluang besar untuk kedokteran hewan berbasis AI. Terutama jika nantinya bisa juga dipakai untuk meminta penawaran biaya konsultasi atau operasi dari klinik hewan setempat.
Harga klinik hewan lokal bisa berbeda lebih dari 10 kali lipat. Ibu saya yang berusia 80 tahun dan ibu mertua saya sering jadi korban dokter hewan yang menagih berlebihan, dan karena anjing peliharaan adalah bagian besar dari hidup mereka, mereka sangat rentan terhadap tekanan.
Saya tidak paham reaksi negatif di sini. Fakta bahwa komputer bisa mencapai sekitar 30% saja sudah mengejutkan.
Kebencian terhadap AI dan laboratorium frontier seperti OpenAI, atau afiliasi Google, tampak terlalu besar dan tidak masuk akal.
- Memang ada banyak suasana negatif terhadap AI. Tetapi penelitian ini juga punya keterbatasan nyata.
  Menurut saya intinya adalah AI diberi catatan kasus pasien, tetapi tidak melihat pasien secara langsung.
  Ini berbeda dari cara dokter dilatih, dan secara tidak perlu membatasi apa yang bisa dilakukan dokter. Sebagian besar nilai yang diberikan dokter datang dari berbicara dengan pasien.
  Judulnya terdengar seperti AI akan menggantikan dokter, padahal kenyataannya lebih dekat ke “AI bisa lebih baik daripada dokter pada tugas sempit ini”.
  Catatan yang dipakai kemungkinan besar juga ditulis oleh dokter sejak awal.
  Imbalan sebenarnya adalah kombinasi dokter+AI harus menjadi lebih baik daripada dokter saja. Jika dokter harus membaca catatan kasus dan menarik kesimpulan, kini mereka bisa memanfaatkan usulan AI yang cukup bagus.
- Saya tidak tahu kenapa itu sulit dipahami. Komentar-komentar kritis yang banyak direkomendasikan sebagian besar menjelaskan alasannya dengan baik, dan alasannya juga tidak terlalu teknis.
  Semakin besar taruhannya, biasanya kita justru harus lebih kritis, bukan kurang.
- Orang juga pernah mengatakan itu tentang Enron.
  Skeptisisme adalah alat yang sangat berguna, bahkan jika berlebihan.
- Terus terang saya senang bahwa kenalan saya di bidang medis, yang selama ini punya pekerjaan nyaman berpenghasilan tinggi dan didukung kartel, kini mungkin merasakan ketakutan eksistensial seperti saya bahwa AI bisa mengambil pekerjaan mereka.
Sebagai orang berusia 60 tahun, saya membuat sendiri alat bantu medis AI [1] dan sudah memakainya secara luas untuk berbagai gejala, dan saya sangat puas.
Setelah menganalisis beberapa hasil tes, alat itu bahkan merekomendasikan indikator yang pada awalnya tidak dipertimbangkan dokter.
Ini tidak akan menggantikan dokter, tetapi merupakan alat yang sangat berguna untuk diagnosis mandiri gejala ringan dan second opinion.
[1] https://mediconsulta.net (DeepSeek)
Saya penasaran apakah 33% itu merupakan subset dari 50~45%.
Jika bukan subset, seberapa serius kesalahannya? Apakah lebih banyak kematian? Waktu pemulihan lebih lama? Perbedaan itu dalam praktiknya menghasilkan apa?
Makalah: https://www.science.org/doi/10.1126/science.adz4433 (30 April 2026)
Seberapa besar selisih 67% dan 55% itu? Apakah penelitian dilakukan pada pasien yang sama seperti yang ditangani dokter?
Jika tidak membandingkan berdampingan bagaimana kedua pihak menilai tiap situasi dan mengapa mereka sampai pada kesimpulan berbeda, saya tidak tahu seberapa efektif ini bisa dianggap secara ilmiah.
Siapa yang bisa menjamin bahwa dalam 43% sisanya dokter tidak akan menemukan blind spot yang tidak dilihat AI?
Alat itu bukan untuk menggantikan, tetapi untuk menggabungkan upaya.
Melempar persentase seperti ini ke publik terasa cukup tidak bertanggung jawab.

OpenAI o1 mendiagnosis 67% pasien IGD dengan akurat, sementara dokter triase mencatat 50–55%

Hasil utama eksperimen triase IGD Harvard

Eksperimen diagnosis 76 pasien IGD

Eksperimen perencanaan perawatan jangka panjang

Keterbatasan studi dan perubahan peran di layanan kesehatan

Kasus klinis dan penalaran AI

Penggunaan AI medis yang sudah menyebar

Penilaian pakar eksternal dan hal yang perlu diwaspadai

Bacaan terkait

1 komentar

Komentar Hacker News