- Dari 20 sistem AI Scribe yang disetujui Ontario untuk penyedia layanan kesehatan, ditemukan penghilangan informasi penting, penyisipan misinformasi, dan pembuatan isi yang tidak pernah diucapkan
- Evaluasi pengadaan dilakukan dengan mencocokkan rekaman simulasi dokter-pasien dan catatan klinis hasil AI oleh tenaga medis, dan 9 sistem bahkan mengarang usulan rencana perawatan
- 12 sistem memasukkan informasi obat yang salah, dan 17 sistem melewatkan detail kunci kesehatan mental pasien yang muncul dalam rekaman
- OntarioMD menyarankan dokter meninjau catatan AI secara manual, tetapi tidak satu pun dari sistem yang disetujui memiliki fitur wajib konfirmasi akurasi
- Dalam skor evaluasi, keberadaan basis domestik berbobot 30%, sementara akurasi catatan medis hanya 4%, dan pengendalian bias serta evaluasi risiko·privasi masing-masing hanya 2%
Laporan audit dan metode evaluasi
- Laporan tentang penggunaan AI di layanan publik yang diterbitkan Office of the Auditor General of Ontario di Kanada mencakup evaluasi program AI Scribe milik Ontario Ministry of Health
- Program ini membahas pengadaan alat pencatat berbasis AI untuk dokter, nurse practitioner, dan tenaga kesehatan lainnya
- Dalam proses pengadaan, digunakan rekaman simulasi dokter-pasien, lalu para tenaga medis menilai akurasi dengan membandingkan rekaman asli dengan catatan klinis yang dibuat AI
Kesalahan yang ditemukan
- Dari 20 sistem, 9 mengarang isi yang tidak dibahas dalam rekaman dan menghasilkan usulan rencana perawatan pasien
- Laporan contoh memuat misinformasi yang berpotensi serius seperti “tidak ditemukan massa” atau “pasien merasa cemas”, padahal hal-hal itu tidak dibahas dalam rekaman
- Dari 20 sistem, 12 memasukkan informasi obat yang salah ke dalam catatan pasien
- Dari 20 sistem, 17 melewatkan detail penting terkait kesehatan mental pasien yang dibahas dalam rekaman
- 6 sistem menghilangkan seluruh atau sebagian masalah kesehatan mental pasien, atau melewatkan detail penting
Tinjauan manual dan pengaman
- OntarioMD, yang mendukung adopsi teknologi baru oleh dokter dan terlibat dalam proses pengadaan AI Scribe, menyarankan agar dokter meninjau secara manual akurasi catatan yang dibuat AI
- Menurut laporan audit, tidak satu pun dari sistem AI Scribe yang disetujui memiliki fitur konfirmasi wajib bahwa dokter telah memverifikasi akurasinya
Masalah bobot evaluasi
- Sebagian besar kinerja rendah ini terkait dengan masalah bobot evaluasi
- Sebanyak 30% dari skor evaluasi platform dialokasikan untuk keberadaan basis domestik di Ontario, sementara akurasi catatan medis hanya menyumbang 4% dari total skor
- Pengendalian bias bernilai 2% dari total skor evaluasi, evaluasi ancaman·risiko·privasi 2%, dan kepatuhan SOC 2 Type 2 sebesar 4%
- Bobot semacam ini dapat berujung pada terpilihnya vendor yang bisa menghasilkan catatan medis yang tidak akurat atau bias, atau yang tidak memiliki perlindungan memadai untuk menjaga informasi kesehatan pribadi yang sensitif
Respons Kementerian Kesehatan Ontario
- The Register telah meminta tanggapan Ontario Health Ministry atas laporan tersebut dan apakah kementerian berencana mengikuti rekomendasi program AI Scribe, tetapi belum menerima jawaban segera
- Juru bicara kementerian mengatakan kepada CBC pada hari Rabu bahwa lebih dari 5.000 dokter di Ontario berpartisipasi dalam program AI Scribe, dan belum ada laporan yang diketahui tentang dampak buruk pada pasien terkait teknologi tersebut
1 komentar
Komentar Hacker News
Belakangan pandangan saya tentang masa depan AI saat ini berubah dari cenderung pesimis menjadi optimis, tetapi meski model berkembang pesat, kesalahan fakta dasar yang terus tersisa tetap sangat mengganggu
Saat memakai Claude Opus untuk membuat resep sesuai selera dan profil rasa, rasanya seperti sihir, tetapi begitu ia salah menghitung konversi satuan dasar seperti sendok makan dan sendok teh, semangat langsung hilang
Rasanya seperti tokoh film yang hampir bertindak normal lalu ada sesuatu yang aneh dan ternyata dia zombie; kasus pencatat catatan ini juga mengesankan karena nyaris berfungsi lalu gagal pada detail penting
Melihat kegagalan seperti ini, saya makin ragu apakah AI generasi sekarang benar-benar berada di jalur yang tepat menuju kecerdasan sejati, meski jika dikelola dengan baik ia memang bisa melakukan hal-hal keren
Industri AI tampaknya terus mengaburkan fakta bahwa kapabilitas dan keandalan adalah sifat yang pada dasarnya berbeda. “Akurat” dan “dapat diandalkan” sering dipakai seolah sama, padahal model yang lolos benchmark dengan baik tetap bisa menjadi risiko di lingkungan produksi nyata
Hasil terbaru METR juga sangat responsif terhadap peningkatan kapabilitas, tetapi yang kurang dibicarakan adalah bahwa pengukuran itu memakai patokan tingkat keberhasilan 50%. Metrik pendamping dengan patokan 80% keberhasilan menunjukkan rentang waktu tugas yang jauh lebih pendek: https://metr.org/
Saya mengimplementasikan sistem AI enterprise, dan saya belum pernah melihat perusahaan yang mau menerima keandalan 50%, jangankan 80%
Saat melihat LLM pada dasarnya bisa merancang prompt dan konteksnya sendiri, rasanya mereka tidak akan selamanya membutuhkan arahan manusia
Untuk tugas faktual sederhana yang memiliki metodologi konkret, LLM bukan alat yang tepat, dan jika tidak bisa mengenali tugas semacam itu lalu menyerahkannya ke alat yang bekerja lebih deterministik, menurut saya itu kegagalan harness
Seperti memakai “skill” saat dibutuhkan, tugas tertentu seharusnya dialihkan ke alat atau “otak” yang terspesialisasi
Kecerdasan umum buatan pertama tampaknya lebih mungkin berupa sistem majemuk yang terdiri dari banyak LLM, harness, skill, dan subsistem turunan yang spesifik domain maupun tugas, bukan satu otak tunggal
Sendok makan Australia adalah 4 sendok teh/20mL, sedangkan versi AS adalah 3 sendok teh/15mL, jadi kesalahan ini sampai taraf tertentu bisa dijelaskan oleh kompleksitas dunia nyata
Tetapi kalau ia bilang 3,14 sendok teh atau 2 sendok teh, ya saya juga tidak tahu
Sekarang itu hampir terselesaikan, dan belakangan mereka bahkan menghasilkan video yang sulit dibedakan dari kenyataan
Jadi saya cenderung percaya bahwa kesalahan halus seperti ini juga akan terus berkurang dan pada akhirnya akan sulit ditemukan di hampir semua tugas
Saya mendapat inspirasi, tetapi ia salah menafsirkan hal-hal yang sangat dasar. Mungkin ini masalah kemampuan saya memakainya, jadi saya tidak bisa yakin sepenuhnya
Di kantor kami memakai pencatat catatan LLM untuk rapat, dan baru-baru ini saya harus turun tangan karena CIO sangat marah bahwa vendor disebut menjanjikan sesuatu lalu tidak menepatinya
CIO tidak hadir di rapat tempat “janji” itu disebut terjadi, tetapi saya hadir, dan kenyataannya tidak ada apa pun yang dijanjikan; pembahasannya jauh lebih bernuansa daripada ringkasan detail ala LLM itu
Saya juga melihat ia meleset saat diskusi tidak berjalan linear. Misalnya saat bolak-balik membahas alert/penanganan insiden terbaru dengan tim SOC, ia menangkap inti besarnya, tetapi jika bergantung pada akurasi, hasilnya bisa sangat meleset
Ini mungkin cocok untuk catatan kunjungan awal oleh perawat di rumah sakit, seperti keluhan utama, berat badan, tinggi badan, dan ringkasan perubahan terbaru, tetapi saya tidak akan mempercayainya untuk tanya-jawab yang rinci dan teknis dengan dokter
Dari sisi kepatuhan juga, saya curiga rumah sakit mungkin lebih suka hanya memakai transkrip daripada menulis ulang catatan, tetapi saya tidak yakin
Malam itu ibu saya menelepon kembali, kami sempat bicara sebentar, lalu dia bertanya hati-hati, “jadi… ada sesuatu yang benar-benar perlu kamu sampaikan ke ibu?” dan saya benar-benar bingung
Ternyata ringkasan LLM di notifikasi panggilan mengubah pesan suara yang 75%-nya cuma ungkapan basa-basi relasional menjadi kalimat kerja formal yang kaku dan berlebihan, sehingga menciptakan suasana yang terasa buruk
Ia memberi bobot makna berlebihan pada tiap ungkapan seperti “ingin bicara” atau “menanyakan waktu yang memungkinkan”, sehingga pesan itu tampak seperti pesan bertele-tele tentang sesuatu yang penting, ambigu, dan mendesak
Akibatnya ibu saya jadi agak khawatir, dan saya kesal karena hasil akhir dari sekadar sapaan perhatian bisa menjadi seperti itu. Rupanya sekarang kita harus menyisipkan ringkasan LLM setengah matang ke segala hal
Selalu periksa ringkasan catatan segera, dan jika ada masalah, hubungi dokter secepat mungkin
Biasanya dokter bisa langsung memperbaikinya, dan paling baik dilakukan saat semua orang masih mengingatnya
Terutama jika transkrip panjang itu akan terus dirujuk, ringkasan bisa ditandai secara manual di sampingnya pada bagian yang menurut manusia memang perlu
Dalam interaksi seperti ini, menurut pengalaman saya biasanya tidak banyak noise yang aman untuk dibuang sembarangan, dan detail-detailnya cukup penting
Sisi terlalu bagusnya adalah, di banyak lingkungan komersial, transkripsi terus-menerus dilarang. Detail tertentu bisa dengan mudah tertinggal sebagai catatan yang menjadi objek discovery dan menimbulkan risiko bisnis
Notulen atau ringkasan bisa menghilangkan pembahasan sensitif atau hanya menyajikan kesepakatan tanpa rincian, dan ini menciptakan ruang pembelaan interpretatif dengan “ambiguitas strategis”
Sisi tidak cukup bagusnya adalah, pengenalan suara sendiri masih probabilistik. Output evaluasi nyata bisa memuat data kata atau frasa alternatif sebanyak kata yang dipilih, sehingga ada ruang untuk merepresentasikan kata yang tidak diucapkan atau menciptakan kesan berbeda
Fakta bahwa orang menganggap transkrip pengenalan suara sebagai catatan otoritatif justru memperparah masalah ini
Jika di atasnya ditambahkan inferensi generatif seperti ringkasan, kedua masalah itu membesar. Dari sudut pandang penasihat hukum, ringkasan dengan lebih sedikit istilah tertentu yang bisa dicari serta tanggung jawab dan kekhususan yang kabur mungkin justru lebih mudah diterima
Saya baru benar-benar mengalaminya. Saya didiagnosis runner's knee, tetapi ringkasan AI menuliskan diagnosis osteoporosis, nyeri panggul, dan kesulitan berjalan, padahal hal-hal itu sama sekali tidak pernah disebut atau bahkan disiratkan
Transkrip harus selalu diperiksa. Terutama karena penyalin berbasis LLM cukup sering memasukkan gejala umum yang sebenarnya tidak ada, atau mengklaim diagnosis umum yang cocok pada beberapa detail tetapi tidak pada bagian lain
Catatan yang salah bisa sangat memengaruhi perawatan lanjutan dan biaya, jadi harus diperbaiki
Selain beberapa kasus yang sederhana dan umum, sekitar 50% ringkasan “AI” yang saya terima salah di satu titik atau lainnya. Biasanya ia menambahkan gejala yang tidak ada, dan sesekali ada fabrikasi yang lebih serius seperti kali ini
LLM bukan perangkat lunak speech-to-text biasa dan tidak boleh diperlakukan seperti itu. Ia kadang menyisipkan kalimat utuh yang sebenarnya tidak pernah ada, dan itu sama sekali tidak bisa diterima dalam rekam medis
Orang lain yang tidak ikut rapat kemudian membaca ringkasan itu, lalu terjadi pertengkaran besar, karena topik itu sensitif baginya akibat perdebatan yang sedang berjalan di dalam perusahaan
Semua peserta mengonfirmasi bahwa itu salah, tetapi momennya kebetulan terlalu pas sehingga sulit diterima orang tersebut. Ringkasan LLM itu menyajikan isi seolah mengonfirmasi kekhawatiran yang sebelumnya dianggap sebagian peserta berlebihan
Pada akhirnya masalah ini membesar sampai manajemen membuat kebijakan untuk tidak mempercayai output generatif tanpa verifikasi independen, jadi setidaknya ada pelajaran yang didapat
Tapi seberapa akurat manusia? Saya pernah meminta salinan cetak rekam medis 5 tahun terakhir dan tebalnya seperti buku
Saya rasa sulit bagi manusia untuk membaca semuanya lalu melakukan sesuatu yang bermakna
Jika alat AI dibiarkan menelusurinya, memang ia bisa salah atau melompat ke kesimpulan tanpa dasar, tetapi kecepatan untuk memeriksanya cepat-cepat, menyanggah bagian aneh, lalu sampai ke jawaban yang benar mungkin bisa lebih cepat daripada rapat apa pun dengan perawat atau dokter
Alih-alih hanya menunjuk bagian yang tidak sempurna, kita bisa menyelesaikan lebih banyak hal jika fokus pada bagaimana memakai alat seperti ini dan bagaimana menyanggah bagian yang aneh atau salah
Pencatat catatan AI yang kami pakai di kantor juga merekam rapat, dan pada setiap memo ia menempelkan tautan stempel waktu yang langsung melompat ke bagian terkait di rekaman agar bisa diverifikasi sendiri
Solusi seperti ini mungkin lebih rumit di lingkungan HIPAA, tetapi untuk bidang penting seperti kesehatan, pendekatan seperti ini wajib ada
Ini elemen kunci untuk kepercayaan, keandalan, kepatuhan, dan sebagainya
Jika sistem perangkat lunak memasukkan output LLM seperti ini tetapi tidak mengungkapkan sumber output agar manusia bisa menilai dan memverifikasinya, maka paling bagus itu pengalaman pengguna yang buruk, dan paling buruk itu berbahaya
Kalau ingin akurat, pada akhirnya semua harus didengarkan juga
Seseorang harus mendengarkan seluruh rekaman rapat sambil memeriksa semua catatan, yang memakan banyak waktu dan tenaga; atau peserta harus memeriksa catatan berdasarkan ingatan, yang rentan salah; atau peserta harus membandingkannya dengan catatan mereka sendiri, yang menghilangkan makna pencatat catatan AI
Secara realistis, dalam konteks apa pun yang akurasi penting, penggunaan AI dalam bentuk apa pun tidak dapat diterima, tetapi sulit membuat orang mengakui itu
Sebagai orang Kanada, saya berharap AI bisa membantu meluangkan waktu dokter dan meringankan beban sistem kesehatan, tetapi ini menakutkan
Kita belum sampai ke sana. Mungkin ke depan akan diperlukan pelatihan AI untuk dokter
Di beberapa kompleks kondominium sudah ada layanan konsultasi dokter online memakai iPad milik institusi medis, dan itu mem-bypass kerepotan prosedur janji dokter keluarga
Saya rasa arah inovasinya benar, tetapi butuh waktu. Kadang terasa AI dirilis terlalu dini
Contoh untuk meluangkan waktu dokter: kunjungan pasien biasanya berantakan, pasien menyampaikan beberapa masalah sekaligus, dan dokter harus menyampaikan hal-hal yang memengaruhi perawatan di bawah tekanan waktu dan kewajiban penjelasan regulatif
Bahkan dengan transkrip sempurna pun strukturnya merugikan semua pihak, LLM tidak bisa sempurna, dan pada dasarnya hanya melakukan autocomplete
Saya membayangkan pasien berinteraksi dengan AI intake yang bisa mendengarkan curhat berjam-jam atau ucapan saat serangan cemas, lalu menyediakan ringkasan kebutuhan yang sudah diverifikasi pendamping serta informasi penyaringan terkait agar bisa ditinjau dokter
Pada tahap itu, informasi berguna seperti akses obat atau kebijakan asuransi juga bisa diajukan untuk diverifikasi dokter, dan pasien bisa merapikan serta melengkapi pemahamannya tentang sistem tanpa tekanan waktu
Arahnya adalah meningkatkan kualitas percakapan sehingga dokter bisa lebih fokus pada pasien, dan kebutuhan pasien untuk berbicara tidak sampai mendominasi perawatan. Dalam layanan kesehatan ada banyak formulir dan checklist, dan autocomplete bisa menciptakan efisiensi dalam cara semuanya dijalankan
Saya tinggal di Toronto, dan dokter saya selalu bertanya apakah boleh memakai pencatat catatan AI, dan saya selalu mengizinkan
Setelah kunjungan selesai, dokter meninjau dan mengoreksi catatan itu, sambil sering mengeluh bahwa ia harus bicara lebih banyak ke komputer daripada ke saya
Syukurlah dia dokter yang baik dan melakukan verifikasi setelahnya seperti ini, tetapi ini memberi kesan bahwa hal ini dipaksakan masuk meski para dokter sendiri tidak menginginkannya
Sekarang orang yang ikut rapat seharusnya mengucapkan keras-keras: “Pemberitahuan: ucapan yang ditafsirkan AI dalam rapat ini mungkin tidak akurat”
Saya melakukannya di setiap rapat
Laporan yang ditautkan tampaknya hampir tidak berguna. Tidak ada pembicaraan soal tingkat kesalahan atau ukuran sampel, jadi dari klaim bahwa 9 dari 20 sistem “memanipulasi informasi dan mengusulkannya ke rencana perawatan pasien”, kita tidak tahu apakah itu terjadi sepuluh dari sepuluh kali atau sekali dari seribu
Bahkan jika diasumsikan tingkat kesalahan sistem tinggi, saya penasaran kenapa mereka tetap diadopsi
Pengujiannya tampak sangat mudah, jadi kalau memang seburuk itu, rasanya dokter/rumah sakit/pemerintah tidak mungkin tertipu untuk membelinya
Akurasi pada praktiknya bukan inti evaluasi, dan tampaknya Ontario memang tidak terlalu peduli
Disebutkan bahwa ini secara spesifik membahas program AI Scribe yang diluncurkan Ontario Ministry of Health untuk dokter, nurse practitioner, dan tenaga profesional lain di sektor kesehatan yang lebih luas, yang membuat saya bertanya-tanya jenis kualitas perangkat lunak seperti apa yang akan didorong kementerian kesehatan
Mungkin sebagian besar hanya persyaratan kualifikasi seperti SOC
Daftar vendor yang disetujui tampaknya ada di tautan ini: https://www.supplyontario.ca/vor/software/tender-20123-artif...