Auditor Ontario mengungkap AI pencatat medis untuk dokter berulang kali salah pada fakta dasar

(theregister.com)

1 poin oleh GN⁺ 5 jam lalu | 1 komentar | Bagikan ke WhatsApp

Dari 20 sistem AI Scribe yang disetujui Ontario untuk penyedia layanan kesehatan, ditemukan penghilangan informasi penting, penyisipan misinformasi, dan pembuatan isi yang tidak pernah diucapkan
Evaluasi pengadaan dilakukan dengan mencocokkan rekaman simulasi dokter-pasien dan catatan klinis hasil AI oleh tenaga medis, dan 9 sistem bahkan mengarang usulan rencana perawatan
12 sistem memasukkan informasi obat yang salah, dan 17 sistem melewatkan detail kunci kesehatan mental pasien yang muncul dalam rekaman
OntarioMD menyarankan dokter meninjau catatan AI secara manual, tetapi tidak satu pun dari sistem yang disetujui memiliki fitur wajib konfirmasi akurasi
Dalam skor evaluasi, keberadaan basis domestik berbobot 30%, sementara akurasi catatan medis hanya 4%, dan pengendalian bias serta evaluasi risiko·privasi masing-masing hanya 2%

Laporan audit dan metode evaluasi

Laporan tentang penggunaan AI di layanan publik yang diterbitkan Office of the Auditor General of Ontario di Kanada mencakup evaluasi program AI Scribe milik Ontario Ministry of Health
Program ini membahas pengadaan alat pencatat berbasis AI untuk dokter, nurse practitioner, dan tenaga kesehatan lainnya
Dalam proses pengadaan, digunakan rekaman simulasi dokter-pasien, lalu para tenaga medis menilai akurasi dengan membandingkan rekaman asli dengan catatan klinis yang dibuat AI

Kesalahan yang ditemukan

Dari 20 sistem, 9 mengarang isi yang tidak dibahas dalam rekaman dan menghasilkan usulan rencana perawatan pasien
Laporan contoh memuat misinformasi yang berpotensi serius seperti “tidak ditemukan massa” atau “pasien merasa cemas”, padahal hal-hal itu tidak dibahas dalam rekaman
Dari 20 sistem, 12 memasukkan informasi obat yang salah ke dalam catatan pasien
Dari 20 sistem, 17 melewatkan detail penting terkait kesehatan mental pasien yang dibahas dalam rekaman
6 sistem menghilangkan seluruh atau sebagian masalah kesehatan mental pasien, atau melewatkan detail penting

Tinjauan manual dan pengaman

OntarioMD, yang mendukung adopsi teknologi baru oleh dokter dan terlibat dalam proses pengadaan AI Scribe, menyarankan agar dokter meninjau secara manual akurasi catatan yang dibuat AI
Menurut laporan audit, tidak satu pun dari sistem AI Scribe yang disetujui memiliki fitur konfirmasi wajib bahwa dokter telah memverifikasi akurasinya

Masalah bobot evaluasi

Sebagian besar kinerja rendah ini terkait dengan masalah bobot evaluasi
Sebanyak 30% dari skor evaluasi platform dialokasikan untuk keberadaan basis domestik di Ontario, sementara akurasi catatan medis hanya menyumbang 4% dari total skor
Pengendalian bias bernilai 2% dari total skor evaluasi, evaluasi ancaman·risiko·privasi 2%, dan kepatuhan SOC 2 Type 2 sebesar 4%
Bobot semacam ini dapat berujung pada terpilihnya vendor yang bisa menghasilkan catatan medis yang tidak akurat atau bias, atau yang tidak memiliki perlindungan memadai untuk menjaga informasi kesehatan pribadi yang sensitif

Respons Kementerian Kesehatan Ontario

The Register telah meminta tanggapan Ontario Health Ministry atas laporan tersebut dan apakah kementerian berencana mengikuti rekomendasi program AI Scribe, tetapi belum menerima jawaban segera
Juru bicara kementerian mengatakan kepada CBC pada hari Rabu bahwa lebih dari 5.000 dokter di Ontario berpartisipasi dalam program AI Scribe, dan belum ada laporan yang diketahui tentang dampak buruk pada pasien terkait teknologi tersebut

1 komentar

GN⁺ 5 jam lalu

Komentar Hacker News

Belakangan pandangan saya tentang masa depan AI saat ini berubah dari cenderung pesimis menjadi optimis, tetapi meski model berkembang pesat, kesalahan fakta dasar yang terus tersisa tetap sangat mengganggu
Saat memakai Claude Opus untuk membuat resep sesuai selera dan profil rasa, rasanya seperti sihir, tetapi begitu ia salah menghitung konversi satuan dasar seperti sendok makan dan sendok teh, semangat langsung hilang
Rasanya seperti tokoh film yang hampir bertindak normal lalu ada sesuatu yang aneh dan ternyata dia zombie; kasus pencatat catatan ini juga mengesankan karena nyaris berfungsi lalu gagal pada detail penting
Melihat kegagalan seperti ini, saya makin ragu apakah AI generasi sekarang benar-benar berada di jalur yang tepat menuju kecerdasan sejati, meski jika dikelola dengan baik ia memang bisa melakukan hal-hal keren
- Betul. Ada kesenjangan kapabilitas-keandalan yang tidak banyak dibicarakan industri
  Industri AI tampaknya terus mengaburkan fakta bahwa kapabilitas dan keandalan adalah sifat yang pada dasarnya berbeda. “Akurat” dan “dapat diandalkan” sering dipakai seolah sama, padahal model yang lolos benchmark dengan baik tetap bisa menjadi risiko di lingkungan produksi nyata
  Hasil terbaru METR juga sangat responsif terhadap peningkatan kapabilitas, tetapi yang kurang dibicarakan adalah bahwa pengukuran itu memakai patokan tingkat keberhasilan 50%. Metrik pendamping dengan patokan 80% keberhasilan menunjukkan rentang waktu tugas yang jauh lebih pendek: https://metr.org/
  Saya mengimplementasikan sistem AI enterprise, dan saya belum pernah melihat perusahaan yang mau menerima keandalan 50%, jangankan 80%
- Saya sempat skeptis apakah LLM adalah jalur yang benar menuju kecerdasan umum buatan, tetapi saya terus terkejut melihat seberapa jauh ini bisa didorong lewat perluasan cara pakai, harness untuk LLM, dan rancangan konteks yang lebih baik
  Saat melihat LLM pada dasarnya bisa merancang prompt dan konteksnya sendiri, rasanya mereka tidak akan selamanya membutuhkan arahan manusia
  Untuk tugas faktual sederhana yang memiliki metodologi konkret, LLM bukan alat yang tepat, dan jika tidak bisa mengenali tugas semacam itu lalu menyerahkannya ke alat yang bekerja lebih deterministik, menurut saya itu kegagalan harness
  Seperti memakai “skill” saat dibutuhkan, tugas tertentu seharusnya dialihkan ke alat atau “otak” yang terspesialisasi
  Kecerdasan umum buatan pertama tampaknya lebih mungkin berupa sistem majemuk yang terdiri dari banyak LLM, harness, skill, dan subsistem turunan yang spesifik domain maupun tugas, bukan satu otak tunggal
- Jika Claude kadang melebihkan nilai konversi, mungkin itu berasal dari perbedaan antara sendok makan gaya Australia dan Amerika
  Sendok makan Australia adalah 4 sendok teh/20mL, sedangkan versi AS adalah 3 sendok teh/15mL, jadi kesalahan ini sampai taraf tertentu bisa dijelaskan oleh kompleksitas dunia nyata
  Tetapi kalau ia bilang 3,14 sendok teh atau 2 sendok teh, ya saya juga tidak tahu
- Analogi ini mengingatkan saya pada jari dan tangan aneh di model pembuat gambar setahun lalu
  Sekarang itu hampir terselesaikan, dan belakangan mereka bahkan menghasilkan video yang sulit dibedakan dari kenyataan
  Jadi saya cenderung percaya bahwa kesalahan halus seperti ini juga akan terus berkurang dan pada akhirnya akan sulit ditemukan di hampir semua tugas
- Kemarin saya memakai opus 4.6 lewat Copilot untuk brainstorming rubber duck pada sebuah fitur besar yang butuh ketelitian
  Saya mendapat inspirasi, tetapi ia salah menafsirkan hal-hal yang sangat dasar. Mungkin ini masalah kemampuan saya memakainya, jadi saya tidak bisa yakin sepenuhnya
Di kantor kami memakai pencatat catatan LLM untuk rapat, dan baru-baru ini saya harus turun tangan karena CIO sangat marah bahwa vendor disebut menjanjikan sesuatu lalu tidak menepatinya
CIO tidak hadir di rapat tempat “janji” itu disebut terjadi, tetapi saya hadir, dan kenyataannya tidak ada apa pun yang dijanjikan; pembahasannya jauh lebih bernuansa daripada ringkasan detail ala LLM itu
Saya juga melihat ia meleset saat diskusi tidak berjalan linear. Misalnya saat bolak-balik membahas alert/penanganan insiden terbaru dengan tim SOC, ia menangkap inti besarnya, tetapi jika bergantung pada akurasi, hasilnya bisa sangat meleset
Ini mungkin cocok untuk catatan kunjungan awal oleh perawat di rumah sakit, seperti keluhan utama, berat badan, tinggi badan, dan ringkasan perubahan terbaru, tetapi saya tidak akan mempercayainya untuk tanya-jawab yang rinci dan teknis dengan dokter
Dari sisi kepatuhan juga, saya curiga rumah sakit mungkin lebih suka hanya memakai transkrip daripada menulis ulang catatan, tetapi saya tidak yakin
- Baru-baru ini saat Hari Ibu saya meninggalkan pesan suara tak terjawab untuk ibu saya, isinya kurang lebih sapaan manusia biasa seperti “sayang teleponku tak terangkat, kalau malam ini atau besok kamu sempat boleh telepon balik, semoga segera ngobrol, sayang, dadah”
  Malam itu ibu saya menelepon kembali, kami sempat bicara sebentar, lalu dia bertanya hati-hati, “jadi… ada sesuatu yang benar-benar perlu kamu sampaikan ke ibu?” dan saya benar-benar bingung
  Ternyata ringkasan LLM di notifikasi panggilan mengubah pesan suara yang 75%-nya cuma ungkapan basa-basi relasional menjadi kalimat kerja formal yang kaku dan berlebihan, sehingga menciptakan suasana yang terasa buruk
  Ia memberi bobot makna berlebihan pada tiap ungkapan seperti “ingin bicara” atau “menanyakan waktu yang memungkinkan”, sehingga pesan itu tampak seperti pesan bertele-tele tentang sesuatu yang penting, ambigu, dan mendesak
  Akibatnya ibu saya jadi agak khawatir, dan saya kesal karena hasil akhir dari sekadar sapaan perhatian bisa menjadi seperti itu. Rupanya sekarang kita harus menyisipkan ringkasan LLM setengah matang ke segala hal
- Untuk semua perawatan yang pernah saya terima sejauh ini, saya selalu bisa mengoreksi catatan setelahnya, dan hampir setengahnya memiliki kesalahan yang bermakna
  Selalu periksa ringkasan catatan segera, dan jika ada masalah, hubungi dokter secepat mungkin
  Biasanya dokter bisa langsung memperbaikinya, dan paling baik dilakukan saat semua orang masih mengingatnya
- Saya juga heran di bagian itu. Kenapa tidak cukup membuat transkrip saja lalu selesai?
  Terutama jika transkrip panjang itu akan terus dirujuk, ringkasan bisa ditandai secara manual di sampingnya pada bagian yang menurut manusia memang perlu
  Dalam interaksi seperti ini, menurut pengalaman saya biasanya tidak banyak noise yang aman untuk dibuang sembarangan, dan detail-detailnya cukup penting
- Transkrip sekaligus terlalu bagus, dan juga tidak cukup bagus. Jika ditambah konten generatif, hasilnya malah lebih buruk
  Sisi terlalu bagusnya adalah, di banyak lingkungan komersial, transkripsi terus-menerus dilarang. Detail tertentu bisa dengan mudah tertinggal sebagai catatan yang menjadi objek discovery dan menimbulkan risiko bisnis
  Notulen atau ringkasan bisa menghilangkan pembahasan sensitif atau hanya menyajikan kesepakatan tanpa rincian, dan ini menciptakan ruang pembelaan interpretatif dengan “ambiguitas strategis”
  Sisi tidak cukup bagusnya adalah, pengenalan suara sendiri masih probabilistik. Output evaluasi nyata bisa memuat data kata atau frasa alternatif sebanyak kata yang dipilih, sehingga ada ruang untuk merepresentasikan kata yang tidak diucapkan atau menciptakan kesan berbeda
  Fakta bahwa orang menganggap transkrip pengenalan suara sebagai catatan otoritatif justru memperparah masalah ini
  Jika di atasnya ditambahkan inferensi generatif seperti ringkasan, kedua masalah itu membesar. Dari sudut pandang penasihat hukum, ringkasan dengan lebih sedikit istilah tertentu yang bisa dicari serta tanggung jawab dan kekhususan yang kabur mungkin justru lebih mudah diterima
- Menurut pengalaman saya, transkripsi bekerja cukup baik, dan dalam kasus seperti ini transkriplah yang harus diperlakukan sebagai fakta dasar
Saya baru benar-benar mengalaminya. Saya didiagnosis runner's knee, tetapi ringkasan AI menuliskan diagnosis osteoporosis, nyeri panggul, dan kesulitan berjalan, padahal hal-hal itu sama sekali tidak pernah disebut atau bahkan disiratkan
Transkrip harus selalu diperiksa. Terutama karena penyalin berbasis LLM cukup sering memasukkan gejala umum yang sebenarnya tidak ada, atau mengklaim diagnosis umum yang cocok pada beberapa detail tetapi tidak pada bagian lain
Catatan yang salah bisa sangat memengaruhi perawatan lanjutan dan biaya, jadi harus diperbaiki
Selain beberapa kasus yang sederhana dan umum, sekitar 50% ringkasan “AI” yang saya terima salah di satu titik atau lainnya. Biasanya ia menambahkan gejala yang tidak ada, dan sesekali ada fabrikasi yang lebih serius seperti kali ini
LLM bukan perangkat lunak speech-to-text biasa dan tidak boleh diperlakukan seperti itu. Ia kadang menyisipkan kalimat utuh yang sebenarnya tidak pernah ada, dan itu sama sekali tidak bisa diterima dalam rekam medis
- Saya benar-benar pernah melihat ringkasan Zoom LLM mengatribusikan ucapan yang tidak pernah disampaikan kepada orang tertentu, dan itu menimbulkan masalah serius
  Orang lain yang tidak ikut rapat kemudian membaca ringkasan itu, lalu terjadi pertengkaran besar, karena topik itu sensitif baginya akibat perdebatan yang sedang berjalan di dalam perusahaan
  Semua peserta mengonfirmasi bahwa itu salah, tetapi momennya kebetulan terlalu pas sehingga sulit diterima orang tersebut. Ringkasan LLM itu menyajikan isi seolah mengonfirmasi kekhawatiran yang sebelumnya dianggap sebagian peserta berlebihan
  Pada akhirnya masalah ini membesar sampai manajemen membuat kebijakan untuk tidak mempercayai output generatif tanpa verifikasi independen, jadi setidaknya ada pelajaran yang didapat
Tapi seberapa akurat manusia? Saya pernah meminta salinan cetak rekam medis 5 tahun terakhir dan tebalnya seperti buku
Saya rasa sulit bagi manusia untuk membaca semuanya lalu melakukan sesuatu yang bermakna
Jika alat AI dibiarkan menelusurinya, memang ia bisa salah atau melompat ke kesimpulan tanpa dasar, tetapi kecepatan untuk memeriksanya cepat-cepat, menyanggah bagian aneh, lalu sampai ke jawaban yang benar mungkin bisa lebih cepat daripada rapat apa pun dengan perawat atau dokter
Alih-alih hanya menunjuk bagian yang tidak sempurna, kita bisa menyelesaikan lebih banyak hal jika fokus pada bagaimana memakai alat seperti ini dan bagaimana menyanggah bagian yang aneh atau salah
Pencatat catatan AI yang kami pakai di kantor juga merekam rapat, dan pada setiap memo ia menempelkan tautan stempel waktu yang langsung melompat ke bagian terkait di rekaman agar bisa diverifikasi sendiri
Solusi seperti ini mungkin lebih rumit di lingkungan HIPAA, tetapi untuk bidang penting seperti kesehatan, pendekatan seperti ini wajib ada
- Dalam merancang pengalaman pengguna berbasis AI, kami menyebut ini traceability sumber
  Ini elemen kunci untuk kepercayaan, keandalan, kepatuhan, dan sebagainya
  Jika sistem perangkat lunak memasukkan output LLM seperti ini tetapi tidak mengungkapkan sumber output agar manusia bisa menilai dan memverifikasinya, maka paling bagus itu pengalaman pengguna yang buruk, dan paling buruk itu berbahaya
- Kedengarannya itu bukan “pencatat catatan” melainkan lebih seperti mesin pencari sampel audio
  Kalau ingin akurat, pada akhirnya semua harus didengarkan juga
- Pada akhirnya pendekatan itu tetap membutuhkan salah satu dari tiga hal
  Seseorang harus mendengarkan seluruh rekaman rapat sambil memeriksa semua catatan, yang memakan banyak waktu dan tenaga; atau peserta harus memeriksa catatan berdasarkan ingatan, yang rentan salah; atau peserta harus membandingkannya dengan catatan mereka sendiri, yang menghilangkan makna pencatat catatan AI
  Secara realistis, dalam konteks apa pun yang akurasi penting, penggunaan AI dalam bentuk apa pun tidak dapat diterima, tetapi sulit membuat orang mengakui itu
Sebagai orang Kanada, saya berharap AI bisa membantu meluangkan waktu dokter dan meringankan beban sistem kesehatan, tetapi ini menakutkan
Kita belum sampai ke sana. Mungkin ke depan akan diperlukan pelatihan AI untuk dokter
Di beberapa kompleks kondominium sudah ada layanan konsultasi dokter online memakai iPad milik institusi medis, dan itu mem-bypass kerepotan prosedur janji dokter keluarga
Saya rasa arah inovasinya benar, tetapi butuh waktu. Kadang terasa AI dirilis terlalu dini
- Rasanya teknologi ini diterapkan dengan cara yang salah. Misalnya, alih-alih melemparkannya ke transkripsi lalu berharap output sempurna, kekuatan LLM seharusnya dipakai untuk meningkatkan kualitas input agar semua pihak diuntungkan
  Contoh untuk meluangkan waktu dokter: kunjungan pasien biasanya berantakan, pasien menyampaikan beberapa masalah sekaligus, dan dokter harus menyampaikan hal-hal yang memengaruhi perawatan di bawah tekanan waktu dan kewajiban penjelasan regulatif
  Bahkan dengan transkrip sempurna pun strukturnya merugikan semua pihak, LLM tidak bisa sempurna, dan pada dasarnya hanya melakukan autocomplete
  Saya membayangkan pasien berinteraksi dengan AI intake yang bisa mendengarkan curhat berjam-jam atau ucapan saat serangan cemas, lalu menyediakan ringkasan kebutuhan yang sudah diverifikasi pendamping serta informasi penyaringan terkait agar bisa ditinjau dokter
  Pada tahap itu, informasi berguna seperti akses obat atau kebijakan asuransi juga bisa diajukan untuk diverifikasi dokter, dan pasien bisa merapikan serta melengkapi pemahamannya tentang sistem tanpa tekanan waktu
  Arahnya adalah meningkatkan kualitas percakapan sehingga dokter bisa lebih fokus pada pasien, dan kebutuhan pasien untuk berbicara tidak sampai mendominasi perawatan. Dalam layanan kesehatan ada banyak formulir dan checklist, dan autocomplete bisa menciptakan efisiensi dalam cara semuanya dijalankan
Saya tinggal di Toronto, dan dokter saya selalu bertanya apakah boleh memakai pencatat catatan AI, dan saya selalu mengizinkan
Setelah kunjungan selesai, dokter meninjau dan mengoreksi catatan itu, sambil sering mengeluh bahwa ia harus bicara lebih banyak ke komputer daripada ke saya
Syukurlah dia dokter yang baik dan melakukan verifikasi setelahnya seperti ini, tetapi ini memberi kesan bahwa hal ini dipaksakan masuk meski para dokter sendiri tidak menginginkannya
Sekarang orang yang ikut rapat seharusnya mengucapkan keras-keras: “Pemberitahuan: ucapan yang ditafsirkan AI dalam rapat ini mungkin tidak akurat”
Saya melakukannya di setiap rapat
Laporan yang ditautkan tampaknya hampir tidak berguna. Tidak ada pembicaraan soal tingkat kesalahan atau ukuran sampel, jadi dari klaim bahwa 9 dari 20 sistem “memanipulasi informasi dan mengusulkannya ke rencana perawatan pasien”, kita tidak tahu apakah itu terjadi sepuluh dari sepuluh kali atau sekali dari seribu
Bahkan jika diasumsikan tingkat kesalahan sistem tinggi, saya penasaran kenapa mereka tetap diadopsi
Pengujiannya tampak sangat mudah, jadi kalau memang seburuk itu, rasanya dokter/rumah sakit/pemerintah tidak mungkin tertipu untuk membelinya
- Menurut artikelnya, “30% dari skor evaluasi platform bergantung semata pada apakah mereka memiliki basis domestik di Ontario, sementara akurasi rekam medis hanya bernilai 4% dari total skor”
  Akurasi pada praktiknya bukan inti evaluasi, dan tampaknya Ontario memang tidak terlalu peduli
Disebutkan bahwa ini secara spesifik membahas program AI Scribe yang diluncurkan Ontario Ministry of Health untuk dokter, nurse practitioner, dan tenaga profesional lain di sektor kesehatan yang lebih luas, yang membuat saya bertanya-tanya jenis kualitas perangkat lunak seperti apa yang akan didorong kementerian kesehatan
Mungkin sebagian besar hanya persyaratan kualifikasi seperti SOC
Daftar vendor yang disetujui tampaknya ada di tautan ini: https://www.supplyontario.ca/vor/software/tender-20123-artif...

Auditor Ontario mengungkap AI pencatat medis untuk dokter berulang kali salah pada fakta dasar

Laporan audit dan metode evaluasi

Kesalahan yang ditemukan

Tinjauan manual dan pengaman

Masalah bobot evaluasi

Respons Kementerian Kesehatan Ontario

Bacaan terkait

1 komentar

Komentar Hacker News