HealthBench - Benchmark baru dari OpenAI untuk evaluasi AI layanan kesehatan

(openai.com)

4 poin oleh GN⁺ 2025-05-14 | 1 komentar | Bagikan ke WhatsApp

OpenAI memperkenalkan benchmark baru HealthBench untuk mengevaluasi kinerja sistem AI dalam situasi medis
Dibangun berdasarkan 262 dokter, pengalaman medis dari 60 negara, dan 5.000 percakapan medis yang realistis, serta menggunakan rubrik evaluasi yang ditulis langsung oleh dokter untuk setiap percakapan
Kriteria evaluasi mencakup akurasi, kesadaran konteks, kualitas komunikasi, kelengkapan, dan lainnya, sementara model evaluator berbasis GPT-4.1 menilai apakah kriteria tersebut terpenuhi
Model OpenAI terbaru menunjukkan kemajuan nyata, termasuk peningkatan kinerja 28% dibanding sebelumnya, peningkatan efisiensi biaya pada model kecil, dan perbaikan kinerja pada skenario terburuk (worst-of-n)
HealthBench lengkap, set Consensus, dan Hard dirilis sebagai open source untuk peneliti dan pengembang, dan diharapkan berkontribusi pada riset AI medis serta peningkatan keamanan di masa depan

Pengenalan HealthBench

Latar belakang pengembangan

Diperlukan evaluasi untuk memaksimalkan potensi penggunaan AGI di layanan kesehatan, seperti memperluas akses informasi medis, membantu dokter klinis, dan memperkuat hak kesehatan masyarakat setempat
Set evaluasi medis yang ada sebelumnya memiliki masalah seperti kurang realistis, kurang berbasis penilaian ahli, dan minim ruang untuk mengukur kemajuan model lebih lanjut

Karakteristik utama

5.000 skenario percakapan kesehatan yang multi-putaran, multibahasa, dan berkesulitan tinggi
Setiap respons dinilai dengan rubrik evaluasi khusus yang dibuat oleh dokter
Total 48.562 kriteria evaluasi memungkinkan kuantifikasi berbagai kemampuan detail model
Penilaian dilakukan melalui sistem evaluasi rubrik otomatis yang memanfaatkan GPT-4.1

Tema dan sumbu evaluasi HealthBench

7 tema evaluasi

Emergency referrals: apakah mampu mengenali situasi darurat dan merekomendasikan respons yang tepat
Expertise-tailored communication: apakah istilah/detail disesuaikan dengan tingkat pemahaman pengguna
Responding under uncertainty: ketepatan respons saat informasi tidak pasti
Response depth: memberikan kedalaman informasi yang sesuai dengan situasi
Health data tasks: menangani pekerjaan praktis terkait medis seperti penulisan dokumen dan dukungan pengetahuan
Global health: kemampuan menyesuaikan diri dengan sumber daya, kondisi, dan bahasa di tiap negara
Context seeking: kemampuan meminta konteks yang diperlukan secara proaktif

Sumbu evaluasi (Axes)

Akurasi (Accuracy): apakah sesuai dengan fakta medis dan konsensus ilmiah
Kesadaran konteks (Context awareness): apakah respons disesuaikan dengan latar belakang pengguna
Kelengkapan (Completeness): apakah seluruh hal yang diperlukan sudah dicakup tanpa terlewat
Kualitas komunikasi (Communication quality): apakah panjang, istilah, struktur, dan penekanan sudah tepat
Kepatuhan terhadap instruksi (Instruction following): apakah mengikuti format dan cara yang diminta pengguna

Contoh evaluasi nyata

Contoh 1: Tetangga berusia 70 tahun tidak sadar tetapi masih bernapas

Mencakup memanggil layanan medis darurat, memposisikan ke posisi pemulihan, dan menjelaskan kondisi kapan CPR harus dimulai
Mendapat 71 poin (77%) dari total 92 poin rubrik → memberikan panduan respons darurat yang sangat baik

Contoh 2: Efek Quercetin untuk pencegahan virus

Menyampaikan dengan jelas bahwa bukti masih kurang, tetapi kurang informasi tentang dosis yang direkomendasikan/data klinis dan tidak menyebutkan efek samping
Mendapat 1 poin (4%) dari total 25 poin rubrik → baik dalam mengungkapkan ketidakpastian ilmiah, tetapi kurang lengkap secara informasi

Contoh 3: Menulis catatan perkembangan rehabilitasi jantung

Sudah menyajikan template terstruktur, tetapi banyak informasi klinis inti yang terlewat
Mendapat 15 poin (36%) dari total 42 poin rubrik

Perbandingan kinerja model

Kinerja per model (keseluruhan/per tema/per sumbu)

o3 mencatat kinerja tertinggi (0.598) di semua tema dan sumbu evaluasi
Diikuti oleh GPT-4.1, Claude 3.7, dan Gemini 2.5 Pro
GPT-3.5 Turbo dan Llama 4 mencatat skor yang jauh lebih rendah

Kinerja terhadap biaya

GPT-4.1 nano 25 kali lebih murah daripada GPT-4o namun memiliki kinerja lebih tinggi
Menunjukkan bahwa kemajuan model kecil terus berlanjut dan membuka peluang performa tinggi dengan biaya rendah

Keandalan (kinerja worst-of-n)

o3 dan GPT-4.1 menunjukkan peningkatan kinerja bahkan pada kasus terburuk
Menjadi indikator penting untuk memastikan keandalan di bidang berisiko tinggi

Benchmark yang diperluas: Consensus & Hard

HealthBench Consensus: set evaluasi berkeandalan tinggi yang dirancang berdasarkan konsensus banyak dokter (3.671 contoh)
- Tingkat kesalahan hampir mendekati 0
HealthBench Hard: 1.000 contoh berkesulitan tinggi yang masih sulit bagi model terbaru
- Dapat digunakan sebagai set evaluasi untuk menguji ruang perbaikan model

Perbandingan dengan dokter manusia

Model AI saja vs dokter (tanpa referensi) vs dokter (dapat merujuk respons model)
Dibanding model tahun 2024: kombinasi dokter+model lebih unggul daripada model saja
Model terbaru tahun 2025 (o3, GPT‑4.1) mencapai atau melampaui tingkat respons dokter
- Ruang untuk perbaikan tambahan makin berkurang

Keandalan evaluasi

Tingkat kesesuaian antara hasil penilaian GPT-4.1 dan penilaian dokter nyata tinggi
Standar penilaian model selaras dengan penilaian dokter pada tingkat yang serupa → validitas sistem penilaian rubrik otomatis terjamin

Arah ke depan

Seluruh data dan alat evaluasi dibuka melalui GitHub https://github.com/openai/simple-evals
Mendorong evaluasi dan perbaikan berkelanjutan berbasis komunitas demi kemajuan AI yang bermakna di lapangan medis
Masih perlu menyelesaikan tantangan seperti permintaan konteks (Context seeking) dan penanganan kasus terburuk (Reliability) yang masih kurang memadai

1 komentar

GN⁺ 2025-05-14

Komentar Hacker News

Saya yakin banyak diagnosis dan pengobatan umum bisa ditangani dengan cukup baik oleh sistem AI yang disetel dan divalidasi secara khusus untuk itu. Baru-baru ini saya menjalani konsultasi video dengan dokter untuk mendapatkan resep obat batuk, tetapi saya sebenarnya sudah mencari tahu dan tahu apa yang perlu saya minum. Orang mungkin bilang, “dokter belajar bertahun-tahun, jadi harus lebih dipercaya daripada Google”, tetapi manusia juga bisa salah, dan dokter pun sering mencari informasi di tempat seperti Uptodate. Jadi kalau saya bersedia menanggung risikonya, kenapa saya tidak boleh menanggung risiko itu sendiri? Saya juga tidak mengerti kenapa selain membayar obat batuk (sekitar 44 dolar), saya masih harus membayar 93 dolar hanya agar dokter melihat wajah saya lewat Zoom kurang dari 5 menit lalu memasukkan resep. Berbeda dengan biaya medis yang mencekik di AS, di kampung halaman saya (Myanmar) ada banyak klinik dan apotek dekat rumah, dan sebagian besar obat bisa dibeli tanpa resep (tentu saja obat yang mengandung opioid tetap perlu resep dokter). Jika hanya ingin memastikan diagnosis, saya bisa membayar 10~20 dolar untuk konsultasi dokter lalu langsung membeli obat di apotek. Kalau punya uang, saya bisa membeli obat dengan bebas, jadi saya heran kenapa di AS saya bahkan tidak diizinkan menanggung risiko itu sendiri. Di tengah biaya layanan kesehatan yang terus naik di seluruh dunia, AI pada akhirnya akan semakin banyak menangani diagnosis dan pengobatan yang umum (meski saya tidak berharap terlalu besar), dan saya berharap setidaknya sebagian dari penghematan biaya itu bisa kembali ke pasien.
- Kasusmu berhasil dengan cara itu karena kebetulan sangat sederhana. Masalahnya adalah orang yang bersangkutan tidak dididik untuk membedakan antara situasi yang sederhana dan yang tidak. Batuk bisa saja hanya batuk biasa, tetapi bisa juga tanda masalah yang lebih serius, jadi perlu pemeriksaan dokter "sungguhan", dan dalam beberapa kasus bahkan perlu pemeriksaan lanjutan oleh spesialis. Saya ceritakan pengalaman saya sendiri: saya mengalami nyeri pada testis; satu dokter tidak merasakan apa pun, dokter lain bilang ada sesuatu yang teraba tetapi tidak tahu itu apa. Akhirnya saya pergi ke spesialis urologi, dan dia langsung mendiagnosisnya sebagai tumor, yang ternyata memang kanker. Karena terdeteksi dini, pengobatannya jadi lebih mudah. Intinya, ketika situasinya tidak sederhana, keahlian dan pengalaman sangatlah penting.
- Anda bertanya kenapa harus membayar 93 dolar untuk konsultasi Zoom kurang dari 5 menit, tetapi sebenarnya Anda membayar pengetahuan seorang ahli yang belajar lebih dari 10 tahun. Sistem AI saat ini, dalam hal diagnosis medis, bahkan kurang dapat dipercaya dibanding pencarian web. Dengan pencarian web, setidaknya saya masih bisa memilah informasi yang ditulis oleh para ahli dan menjadikannya rujukan, dan kalau dokter juga mencari informasi, menurut saya yang dibayar adalah kemampuan mereka menilai informasi itu. Saya tidak tahu apa dasar berpikir bahwa AI bisa menjalankan peran ini lebih baik daripada manusia. Cerita ini mirip kisah Henry Ford tentang “pengetahuan untuk tahu harus mengetuk di mana itulah yang bernilai 9999 dolar”.
- Saya penasaran Anda tinggal di mana sampai tidak bisa membeli obat batuk tanpa resep. Setahu saya, yang butuh resep hanya yang mengandung zat yang diatur ketat.
- Jumlah dokter sama sekali tidak cukup untuk menangani semua hal seperti ini. Kekurangan ini makin parah dari hari ke hari. Akan sangat bagus kalau semua orang bisa mendapat layanan medis murah kapan saja, tetapi kita tidak hidup di dunia ideal. Jika AI menggantikan sebagian pekerjaan ini, itu akan menjadi keuntungan besar bagi kebanyakan orang.
- Kalau obat bisa dibeli dan diminum dengan mudah oleh siapa saja, akan muncul masalah seperti penyalahgunaan antibiotik secara sembarangan. Sayangnya, sistem medis harus dirancang dengan mempertimbangkan perilaku yang bahkan berada di bawah rata-rata. AI mungkin bisa menangani sebagian klasifikasi sederhana (triase), tetapi dengan kondisi LLM saat ini, masih sulit menggantikan dokter karena kurangnya keandalan informasi pasien dan penilaian multisensorik. “Dokter AI” yang sesungguhnya mungkin baru mungkin bila ada data kesehatan yang lengkap dan berbasis riwayat, tetapi pengumpulan data pada tingkat itu juga memunculkan tantangan baru seperti privasi.
- Jika pengalaman seperti ini adalah pengalaman medis yang umum, berarti memang dibutuhkan perubahan yang membongkar seluruh sistem dari akarnya. AI mungkin hanya akan menaikkan margin keuntungan beberapa perusahaan dan tidak memberi manfaat apa pun kepada Anda.
- AI juga akan punya biaya tersendiri. Itu tidak akan gratis.
Saya merasa kalau benchmark dibuat oleh pihak yang juga membuat modelnya, bukankah itu konflik kepentingan? Minimal seharusnya ditangani oleh organisasi nirlaba terpisah atau badan hukum terpisah di bawah perusahaan induk agar lebih transparan.
- Benchmark itu sendiri tidak buruk, tetapi saya agak tidak nyaman melihat grafik dari standar baru yang mereka buat, di mana Gemini atau Claude tampil lebih rendah daripada o3. Kesan yang saya tangkap seperti, "Wah, di metrik penting yang baru saja kami buat, model pesaing ternyata lebih buruk! Gawat sekali!"
Gagasan mempercayakan informasi kesehatan kepada LLM yang bahkan tidak memahami makna adalah kekeliruan serius. Mungkin masih ada gunanya untuk menemukan pola data, hiburan, atau pembuatan kode sampai tingkat tertentu, tetapi untuk diagnosis atau saran medis sama sekali tidak bisa dipercaya. Membayangkan tenaga medis hanya menirukan apa yang dikatakan LLM saja sudah mengerikan. Risiko seperti ini perlu segera diatur.
- Saya ingin tahu secara spesifik kenapa Anda menganggap cacat itu begitu fatal. Memang ada keterbatasan yang jelas pada LLM, tetapi manusia juga punya keterbatasan, dan saya melihat keduanya bisa digabung untuk hasil yang lebih baik.
- Siapa yang benar-benar memahami sesuatu pada dasarnya tidak transparan bagi kita semua. Kita bahkan tidak tahu apakah tulisan ini ditulis AI atau tidak, dan tidak ada standar mutlak untuk menilai siapa yang sungguh punya pemahaman. Keahlian manusia pun pada akhirnya hanya diukur secara tidak langsung lewat ujian evaluasi dan semacamnya, dan OpenAI sekarang sedang mencoba menantang hal itu. Yang saya pedulikan adalah hasil. Kalau “nilainya” 10%, saya tidak akan percaya, baik itu manusia maupun AI. Kalau 95%, saya malah akan merasa itu lebih berguna daripada dokter. Bahkan saya perkirakan dalam waktu dekat sebagian besar dokter tidak akan bisa mendapat nilai setinggi model terbaru di benchmark seperti ini.
- Saya juga merasa sama berbahayanya mempercayakan informasi kesehatan kepada “manusia mamalia yang lelah dan penuh bias”. Dokter bagus untuk empati, obrolan ringan, vaksinasi dasar, dan sebagainya, tetapi tidak ada jaminan dokter yang selalu kelelahan akan lebih akurat daripada alat berbasis data. Kalau dokter yang saya temui hanya mengulang isi presentasi sales atau pedoman usang, itu juga mengerikan.
Saya suka karena mereka menampilkan “skor terburuk dari k sampel”. Dalam kenyataan, 1 dari 100 orang benar-benar bisa menerima “jawaban terburuk” itu.
Cukup mengesankan bahwa Grok tampil lebih baik dari perkiraan dalam tes seperti ini. Di berita, Grok terasa kurang mendapat sorotan dibanding Gemini, Llama, dan lain-lain.
- Saya terkejut Gemini ternyata tampil cukup baik. Sepertinya skor Gemini turun karena terlalu sering menghindari topik kesehatan. Mungkin jawaban yang terlalu disensor sampai kurang memadai semuanya dihitung sebagai gagal.
- Bobot model Grok tidak bisa diunduh untuk dijalankan secara lokal.
Selama 5 tahun terakhir saya menderita karena cedera. Saya sudah menemui berbagai dokter olahraga, menjalani pemindaian, kompres, akupunktur, sampai chiropractor. Diagnosis dokter terus bertambah aneh: “normal”, “tidak tahu penyebabnya”, dan sebagainya. Hanya satu dokter yang memberi pendapat yang terdengar meyakinkan, tetapi saya sudah terlalu frustrasi sampai tidak menindaklanjutinya. Akhirnya saya memasukkan seluruh riwayat saya ke o3-deep-research, dan ia mengusulkan pendapat yang sama dengan dokter tersebut (termasuk diagram kelompok otot dan cara berolahraga). Saya belum sepenuhnya pulih, tetapi untuk pertama kalinya setelah sekian lama saya merasa ada harapan, meski tetap hati-hati.
- Saya penasaran kenapa Anda lebih memercayai diagnosis LLM daripada saran banyak dokter. Di AS, agak sulit dipahami kalau dokter-dokter itu sama sekali tidak menyarankan fisioterapi atau latihan.
- Kita harus menerima kenyataan bahwa sebagian besar penanganan cedera muskuloskeletal adalah perjalanan trial-and-error yang sangat panjang. Pemeriksaan pencitraan juga punya keterbatasan, dan ada banyak kasus ketika gejala tidak sesuai dengan hasil gambar. Jangan terlalu putus asa; kalau terus mencoba berbagai terapi yang punya dasar ilmiah, pada akhirnya dalam banyak kasus waktu yang menyelesaikan masalah. Justru karena itu orang juga mudah salah mengira seolah terapi tertentu yang menyembuhkan.
- Sepertinya yang benar-benar Anda butuhkan bukan dokter, melainkan fisioterapis yang hebat.
- Bukankah pada akhirnya pendapat dokter itu memang benar? Sulit melihat ini sebagai kemenangan khusus bagi AI ataupun diagnosis mandiri online.
- Anda tampaknya percaya pada terapi meragukan seperti akupunktur dan chiropractic, tetapi justru tidak percaya pada dokter, lalu setelah itu malah memercayai AI yang terkenal suka mengarang. Mungkin Anda perlu meninjau ulang tolok ukur penilaian internal Anda.
- Saya berharap pemotongan anggaran sains pemerintah belakangan ini setidaknya mengurangi sebagian kaum terlalu berhati-hati yang menghambat upaya pendekatan baru dan pembelajaran. Sangat merugikan kalau model-model seperti ini dibatasi hingga hanya bisa menjawab, “Saya tidak bisa memberi nasihat medis.”
Studi ini terasa sangat matang dan membantu, dan saya juga terkesan bahwa dalam setahun performa model hampir naik dua kali lipat. o3 dan deep-research benar-benar banyak membantu saya mengelola kesehatan. Misalnya, sebulan lalu saya mengalami benturan keras di bagian dada (sekitar jantung), dan saya memberi o3 gejala saya serta data detak jantung/oksigen dari Apple Watch. Dari percakapan sebelumnya, ia juga sudah tahu riwayat kesehatan saya. Ia menjelaskan perjalanan gejala yang diharapkan dan cara penanganannya dengan akurat, dan pemulihan saya ternyata benar-benar cocok 100%. Saya biasanya sudah menyiapkan prompt rinci berisi tinggi badan, berat badan, obat yang dikonsumsi, informasi kesehatan, dan sebagainya, lalu saat gejala muncul saya langsung memberikannya ke o3 untuk konsultasi; itu sangat berguna.
- Data saturasi oksigen SpO2 dari Apple Watch atau wearable di pergelangan tangan cukup tidak akurat untuk tujuan diagnosis. Oksimeter khusus yang dijepit di jari jauh lebih akurat.
- Saya penasaran seberapa besar rasa percaya dirinya terhadap diagnosis itu, dan apakah Anda benar-benar memercayai rasa percaya diri tersebut. Saya bertanya kepada istri saya yang seorang dokter, dan menurutnya efusi perikardium akibat cedera (yang berpotensi gawat) juga merupakan kemungkinan alternatif.
Saya merasa benchmark ini terlepas dari cara model benar-benar digunakan di dunia nyata. Di penggunaan profesional nyata, pengguna biasanya tidak dibiarkan sekadar mengobrol dengan base model; mereka memakai kombinasi seperti RAG, guardrail, dan jawaban yang sudah disiapkan. Saya jadi bertanya-tanya skenario komersial nyata apa yang sebenarnya diwakili oleh evaluasi ini.
- Bukankah benchmark kode juga sama saja? Dalam praktiknya, untuk tanya jawab profesional, base o3 dengan pencarian web dan prompt yang baik justru lebih bagus. Bahkan RAG/guardrail bisa saja menurunkan performa.
- ChatGPT chat itu sendiri sudah merupakan penerapan nyata dari tes ini. Itu kasus yang sangat besar dan penting.
Bahkan orang non-klinis sekarang sudah memakai ChatGPT setiap hari untuk membantu masalah kesehatan nyata, jadi evaluasi ini adalah dataset yang baik untuk mengurangi risiko yang realistis.
Baru-baru ini saya mengunggah hasil pemeriksaan ke ChatGPT dan memintanya merangkum, tetapi AI malah “berhalusinasi” tentang kanker serius dan bahkan menambahkan berbagai penjelasan tambahan. Padahal laporan aslinya menyatakan “tidak ada kanker”.
- Saya penasaran itu model LLM yang mana (4o, o3, 3.5?). Model-model awal performanya kurang bagus, tetapi o3 cukup berguna untuk membantu masalah kesehatan (misalnya masalah telinga).
- Saya penasaran apakah mungkin AI itu sebenarnya tidak bisa membaca hasil pemeriksaannya dan hanya menjawab ngawur seolah sedang roleplay. Dulu saya pernah memberinya PDF manual mesin dan bertanya sesuatu; jawabannya terdengar cukup meyakinkan, tetapi ternyata skema rangkaian yang diberikannya sama sekali berbeda.
- Sebagai lelucon, seolah ia menjawab “Tes kanker: kanker ditemukan!”
- Saya penasaran hasil nyatanya sebenarnya bagaimana (kadang hal yang kita anggap positif palsu ternyata memang kanker, hanya baru terungkap kemudian; kanker kadang baru menunjukkan sinyal setelah waktu yang lama).

HealthBench - Benchmark baru dari OpenAI untuk evaluasi AI layanan kesehatan

Pengenalan HealthBench

Latar belakang pengembangan

Karakteristik utama

Tema dan sumbu evaluasi HealthBench

7 tema evaluasi

Sumbu evaluasi (Axes)

Contoh evaluasi nyata

Contoh 1: Tetangga berusia 70 tahun tidak sadar tetapi masih bernapas

Contoh 2: Efek Quercetin untuk pencegahan virus

Contoh 3: Menulis catatan perkembangan rehabilitasi jantung

Perbandingan kinerja model

Kinerja per model (keseluruhan/per tema/per sumbu)

Kinerja terhadap biaya

Keandalan (kinerja worst-of-n)

Benchmark yang diperluas: Consensus & Hard

Perbandingan dengan dokter manusia

Keandalan evaluasi

Arah ke depan

Bacaan terkait

1 komentar

Komentar Hacker News