- Setelah MRI untuk nyeri bahu kanan, saya meragukan diagnosis rumah sakit berupa robekan parsial Grade III dan rencana terapi yang cepat, lalu mencoba membaca ulang citra dengan Opus 4.8
- Rumah sakit melihat robekan parsial dengan lebar lebih dari 50% pada area “apical insertion” tendon subskapularis, tetapi Opus 4.8 menilai tendonnya utuh, sehingga kesimpulannya sangat berbeda
- GPT 5.5 Pro mempertanyakan dasar terapi gelombang kejut dan suntikan Traumeel dalam perawatan rumah sakit, yang membuat motivasi untuk meninjau sendiri diagnosisnya makin besar
- Di lingkungan Claude Code, Opus 4.8 menganalisis ratusan file MRI DICOM sekitar 266MB melalui instalasi paket dan eksekusi kode, lalu melakukan analisis mediasi ulang setelah laporan manusia dan percakapan ChatGPT turut dimasukkan
- Hasil mediasi akhir lebih dekat ke “tendinosis ringan pada insersi, tanpa robekan parsial atau robekan penuh yang jelas”, tetapi ketidakpastian tetap ada soal mana yang harus dipercaya: tenaga medis atau AI
Diagnosis MRI dan terapi yang berjalan cepat
- Selama beberapa minggu ada nyeri bahu kanan, dan meski gejalanya tampak membaik, saya meminta pendapat dokter ortopedi
- Dokter menyarankan MRI, dan karena bisa langsung dilakukan di klinik, pemeriksaan pun dijalankan
- Hasil MRI berujung pada diagnosis adanya Grade III (>50%-width) partial-thickness tear di area “apical insertion” tendon subskapularis
- Rumah sakit memulai terapi hanya beberapa menit setelah MRI, dan juga menyusun rencana untuk mengulang terapi yang sama sebanyak 3 kali secara total
- Karena merasa terapinya berjalan terlalu cepat, saat meninggalkan rumah sakit saya meminta salinan hasil MRI serta daftar terapi yang sudah dilakukan dan yang diusulkan
Masalah dasar terapi yang disorot GPT 5.5 Pro
- Saat hasil MRI dan daftar terapi diberikan ke GPT 5.5 Pro, dua hal langsung terlihat
- Rumah sakit melakukan terapi gelombang kejut pada bahu, tetapi pedoman praktik klinis terbaru menyatakan jangan menggunakan atau merekomendasikan terapi gelombang kejut untuk tendinopati rotator cuff tanpa kalsifikasi
- Saat USG, saya diberi tahu bahwa tidak ada kalsifikasi
- Rumah sakit menyuntikkan Traumeel, yaitu obat homeopati yang di Jerman terdaftar sebagai “tanpa indikasi terapeutik”
- Hasil ini makin menurunkan kepercayaan saya terhadap diagnosis dan terapi rumah sakit, dan membuat saya ingin menganalisis MRI itu sendiri
Analisis MRI dengan Opus 4.8 di Claude Code
- Paket MRI berupa ekspor DICOM standar yang terdiri dari ratusan file tanpa ekstensi, dengan ukuran total sekitar 266MB
- Untuk analisis, saya menggunakan Opus 4.8 (xhigh) di dalam Claude Code
- Saya memilih Claude Code agar eksekusi kode dan instalasi paket memungkinkan
- Saya menginstruksikan agar paket yang diperlukan untuk analisis dipasang terlebih dahulu
- Menurut saya, perbedaan antara Claude Code dan chat Claude.ai sangat besar meskipun memakai model yang sama
- Karena saya tidak memiliki pengetahuan tentang MRI, saya mengatur agar Claude terlebih dahulu menyusun rencana terperinci lalu menjalankannya
- Konteks medis awal yang saya berikan hanya “nyeri bahu kanan 2–3 minggu”, dan saya kemudian menilai bahwa informasi itu lebih sedikit daripada yang diterima dokter manusia
Perbedaan soal ada tidaknya robekan pada analisis pertama
- Sekitar 1 jam kemudian, Opus 4.8 mengembalikan laporan
- Pembacaan rumah sakit dan pembacaan Opus 4.8 hampir bertolak belakang
- Rumah sakit melihat robekan parsial Grade III di area apical insertion tendon subskapularis
- Opus 4.8 menilai tendon tersebut sebagai intact tendon
- Perbedaan yang saya perkirakan hanya sebatas derajat robekan yang lebih rendah, tetapi kenyataannya justru berbeda pada ada tidaknya robekan itu sendiri
Memediasi ulang pembacaan manusia dan pembacaan AI
- Untuk menyesuaikan kedua hasil tersebut, saya meminta Opus 4.8 melakukan analisis perbandingan lagi
- Kali ini, selain laporan MRI manusia, saya juga memberikan percakapan dengan ChatGPT 5.5 Pro
- Percakapan ini mencakup gerakan dan postur yang dicoba untuk memperkirakan diagnosis
- Opus mengambil pendekatan menggunakan beberapa subagen untuk mendapatkan analisis baru yang tidak terlalu bias oleh konteks sebelumnya
- Sekitar 1 jam kemudian, laporan baru keluar
- Kesimpulan mediasi menilai bahwa bukti di sisi Reader A lebih unggul, dan dirangkum dengan “moderate-to-high confidence”
- Tendinosis ringan pada insersi
- Tidak ada robekan parsial atau robekan penuh yang jelas, termasuk pada apical insertion
- Disebutkan bahwa sebagian sengketa antara kedua laporan tidak dapat diselesaikan, tetapi untuk item ini kesimpulannya relatif tegas
- Tendinosis ringan pada insersi
Pilihan yang tersisa setelah opini kedua dari AI
- Ada rasa aman saat menyerahkan masalah kepada ahli yang dipercaya, tetapi opini kedua berbasis AI dapat mengguncang rasa itu dengan tidak nyaman
- Setelah analisis AI, diagnosis dan rencana terapi awal tampak terlalu tergesa-gesa dan banyak intervensi dibandingkan fakta yang ada, tetapi AI sendiri juga sulit dipercaya sepenuhnya
- Pilihan yang tersisa adalah menemui dokter lain, atau menunggu apakah bahu membaik dengan rehabilitasi yang sedang saya jalani
- Saya berharap beberapa generasi lagi, peninjauan MRI oleh AI bisa dipercaya seperti koreksi email
- Nama klinik dan dokter tidak saya ungkapkan, dan pengalaman ini bukan nasihat medis, melainkan contoh tentang rasa ingin tahu teknis untuk mencoba mendapatkan opini kedua dengan AI
1 komentar
Opini Hacker News
Saya dokter radiologi, tetapi sulit menilai tanpa melihat seluruh dataset MRI 3D. Ultrasonografi bukan metode yang baik untuk mengevaluasi kalsifikasi; kalsifikasi besar bisa ditemukan, tetapi yang kecil mudah terlewat
Rontgen polos lebih membantu, dan kalsifikasi itu mungkin juga terlihat di MRI. Bagaimanapun, terapi gelombang kejut tidak berbahaya ketika tidak ada kalsifikasi; hanya saja tidak membantu
Dalam pembacaan radiologi, ketika tertulis “tidak ada”, selalu ada catatan implisit “tidak ada dalam modalitas pencitraan tersebut dan dalam cakupan gambar yang diperoleh”. Jadi, kalau laporan USG mengatakan tidak ada kalsifikasi, sementara laporan rontgen polos mengatakan ada kalsifikasi, itu bukan kontradiksi
Bagi pasien atau orang yang tidak terbiasa dengan istilah medis, ini tentu membingungkan, tetapi jika semua itu dijabarkan dalam laporan, dokumennya akan menjadi jauh lebih penuh ungkapan bersyarat dan lebih menjengkelkan untuk dibaca daripada sekarang
Saya teringat anekdot ketika Babbage ditanya, “Jika pertanyaan yang salah dimasukkan ke mesin hitung, apakah jawaban yang benar akan keluar?” Ia kurang lebih menjawab, “Saya sungguh tidak mampu memahami logika pikiran yang bisa memunculkan pertanyaan seperti itu”
Kalau AI, setidaknya ia seharusnya menyinggung bahwa kalsium lebih terlihat pada rontgen/CT daripada ultrasonografi
Untuk yang berminat, kami menyediakan layanan opini kedua dari dokter radiologi manusia bersertifikat: https://expert.med
Intinya benar-benar ini. Saya tahu AI tidak bisa dipercaya, tetapi pada saat yang sama jauh lebih nyaman meminta AI menjelaskan lebih lanjut atau membantahnya. Tidak perlu janji temu per jam dan tidak ada biaya per jam, itu faktor besar. Namun informasi yang lebih banyak tidak selalu membantu
Saya pernah membawa Civic berusia 11 tahun dengan jarak tempuh 150 ribu mil ke beberapa bengkel dan memainkan permainan “opini kedua”. Saya mencoba membandingkan rekomendasi dari tiap bengkel untuk memutuskan apa yang harus dilakukan
Hasilnya adalah 3 rekomendasi yang sama sekali tidak berkaitan, dan salah satunya berisi hal yang saya tahu pasti salah. Rasanya lebih buruk daripada sebelum mulai
Solusi untuk informasi yang tidak pasti bukanlah lebih banyak informasi yang bisa diberikan AI, melainkan informasi yang lebih baik, dan saat ini AI belum bisa menyediakannya
Cukup terlihat jelas betapa banyak jawaban yang berbeda dan saling bertentangan muncul. Sebagian besar disampaikan dengan percaya diri
Terakhir kali saya memasukkan pertanyaan medis ke Claude, saya bahkan tidak mendapat jawaban yang konsisten antar-sesi
Yang lebih menakutkan adalah betapa mudahnya setiap LLM diarahkan ke jawaban yang ada dalam pikiran saya. Begitu saya mulai menanyakan opsi yang diajukan LLM lain, setiap sesi mengalir ke arah penjelasan itu
Misteri lebih buruk. Setiap kali satu keping data ditambahkan, tujuan justru semakin menjauh. Semuanya menjadi semakin membingungkan
Ini pembedaan yang dipopulerkan Malcolm Gladwell
Saya tahu meminta opini dari montir memakan banyak waktu. Tapi AI tidak demikian
Beberapa tahun lalu, sebelum demam AI, saya pernah mengalami salah diagnosis tuberkulosis. Saya mengalami batuk kronis, dan seorang dokter radiologi outsourcing dari sebuah klinik menemukan tanda-tanda tuberkulosis. Sesuai hukum, hasil itu dikirim ke rumah sakit tuberkulosis kota, dan para dokter di sana menerima begitu saja kesimpulan radiologi lalu menyuruh saya tinggal di rumah sakit dengan rezim ketat seperti penjara selama setidaknya 8 bulan
Tidak ada cara untuk menolaknya. Saya dianggap semacam bahaya biologis, dan secara hukum harus mematuhinya
Sebelum dirawat inap, saya buru-buru mencari dokter radiologi lain, dan ia mendiagnosisnya sebagai pneumonia. Saya mengirim laporan itu ke dokter penanggung jawab di rumah sakit tuberkulosis, dan setelah meninjaunya mereka menyimpulkan bahwa pembacaan awal keliru. Ternyata struktur di sana adalah para dokternya sama sekali tidak bisa membaca citra, dan hanya percaya begitu saja pada apa yang dikatakan dokter radiologi
Lucunya, mereka sudah memasukkan saya ke registri tuberkulosis resmi, dan tidak ingin mengakui kesalahan. Sebagai gantinya, mereka menerbitkan dokumen lain yang menyatakan “tuberkulosis sembuh dalam 7 hari di rumah sakit itu”. Mungkin saya satu-satunya orang di negara itu yang mengalahkan tuberkulosis dalam seminggu
Jika sulit memercayai dokter radiologi atau dokter, ada baiknya mencari dokter lain bila biayanya memungkinkan. Anda bisa membandingkan kesimpulannya dan melihat apakah cocok. Jika dua dokter atau dokter radiologi yang tidak saling terkait mengatakan hal yang sama, kemungkinan itu cukup dekat dengan kebenaran
Namun saya tidak begitu tahu siapa yang harus lebih dipercaya antara AI dan manusia. AI berhalusinasi, tetapi saya juga sudah beberapa kali salah didiagnosis oleh manusia
Rasanya perlu ada tempat terpusat tempat para pakar tingkat tertinggi membaca citra, alih-alih membiarkan tiap dokter melihatnya sendiri-sendiri
Menarik melihat orang-orang di sini mengharapkan tubuh manusia seperti fungsi deterministik, bahwa input X seharusnya menghasilkan output Y. Ekspektasi itu juga terbawa ke diagnosis, sehingga mereka mengira beberapa spesialis akan memberi diagnosis yang sama untuk masalah yang sama
Mengingat kompleksitas tubuh manusia, diagnosis adalah hasil gabungan dari pengalaman yang dibangun selama karier, pengetahuan, metode diagnosis, dan peralatan. Gelar seperti “dokter” adalah sertifikasi dari negara bahwa “orang ini lulus ujian, jadi aman untuk praktik”, tetapi bukan berarti semua orang praktik dengan cara yang sama
Ada spesialis yang memperbarui pengetahuannya setiap bulan, ada yang setiap tahun, dan ada yang tidak sama sekali. Terlalu banyak variabel, mulai dari wilayah, politik, bahkan cuaca
Karena itu memilih spesialis benar-benar penting. Anda perlu mencari reputasi orang itu dalam cara praktik dan bidang keahliannya. Yang bisa dilakukan hanyalah memaksimalkan peluang mendapat diagnosis yang benar; jangan berharap seseorang pasti benar hanya karena disebut dokter
Saya melihat banyak teman dan anggota keluarga yang hampir langsung disarankan operasi karena nyeri bahu. Bagi orang yang pekerjaannya melakukan operasi, operasi sering menjadi pilihan default
Saya sendiri dulu pernah mengalami nyeri bahu yang cukup parah, dan rasa sakitnya tidak mereda selama berbulan-bulan. Saya tidak ingin operasi, jadi mencoba pijat dan akupunktur, tetapi sama sekali tidak membantu
Yang menyelesaikannya adalah benar-benar berfokus pada pull-up. Awalnya saya bahkan tidak bisa satu pun, jadi mulai dari menggantung dan scapular pull-up, lalu perlahan beralih ke pull-up biasa. Setelah bisa melakukan beberapa repetisi per set, saya berlatih dengan metode “grease-the-groove”
Saat sudah bisa sekitar 17 repetisi per set, saya menghentikan jadwal latihan itu, dan sekarang saya melakukan 6 set masing-masing 7–8 repetisi, 3 kali seminggu, dibagi sepanjang hari. Saya juga melakukan latihan mobilitas bahu https://www.youtube.com/watch?v=vP8YmmRMz6I
Kalau saya malas dan melewatkannya, rasa tidak nyaman pasti muncul lagi, tetapi kalau kembali melakukan latihan penguatan, rasa itu hilang
Kalau pasien datang mencari solusi cepat, sepertinya solusi seperti itu yang akan ditawarkan. Kalau setelah sedikit belajar mereka datang untuk mencari solusi terbaik bagi dirinya, biasanya itulah yang mereka dapatkan
Sekitar 2 tahun lalu, lewat “deep research” ChatGPT, saya meneliti sinusitis kronis yang sudah saya perjuangkan hampir 3 tahun. Setelah bertemu 3 dokter umum dan 3 kali mengunjungi THT, saya memasukkan semua pengamatan saya ke AI
Yang terutama, dokter THT saya melihat sinus saya dengan endoskop dan melihat bukti reaksi alergi, tetapi kemudian setelah tes alergi ia menyimpulkan bahwa itu tidak bisa diobati dengan obat alergi, dan ia tidak bisa menjelaskan alasannya. Saya bertanya beberapa kali, tetapi ia tidak menjawab
ChatGPT menemukan sebuah studi NIH yang menyebutkan bahwa 20% orang menunjukkan reaksi alergi yang terbatas pada bagian tubuh tertentu, dan hal itu bisa saja tidak terlihat melalui uji tusuk kulit di bahu. Ketika saya menanyakannya kepadanya, ia hanya berkata “alergi tidak bekerja seperti itu.” Selesai sampai di situ. Ia bahkan tidak terpikir untuk melihat penelitiannya
Ia meresepkan CPAP dan perawatan nebulizer rutin. Sebagai catatan sampingan, perusahaan CPAP mengirim SMS, tetapi saya tidak bisa memastikan apakah itu phishing atau bukan; saya bertanya siapa mereka, tetapi tidak ada jawaban
Jadi saya memutuskan untuk mencoba minum obat alergi generasi kedua setiap hari
Sinusitisnya hilang. Sebelumnya saya mengalami sinusitis berat setidaknya setiap kuartal. Mungkin benar seperti kata dokter itu, alergi tidak bekerja seperti itu, tetapi obat alergi benar-benar menyelesaikan masalah saya
Saya bersyukur. Karena beberapa tahun lalu saya pernah benar-benar mencoba memakai CPAP selama sebulan, tetapi sama sekali tidak bisa terbiasa dan tidur saya juga berantakan
Berikutnya adalah tanggung jawab dan waktu. Terutama di bidang dengan taruhan besar seperti medis, jika Anda meminta seseorang meninjau ulang keputusan, tidak ada yang punya waktu atau motivasi untuk membuka kekacauan itu
Jika benar-benar ingin berhasil, sebelum lingkar diagnosis tertutup, sebelum para dokter mengukuhkan kasus tentang Anda, Anda perlu mengusulkan tes yang disebutkan dalam penelitian itu. Dengan begitu peluang untuk melihat apa yang perlu dilihat menjadi paling besar
Lebih baik jujur saja bahwa Anda membawa suatu hipotesis. Dokter sangat cepat menyadari bahwa mereka sedang diarahkan, tetapi lebih lambat menyadari bahwa pasien ternyata benar. Dalam sistem tempat orang-orang yang terlalu banyak bekerja berusaha sebaik mungkin, begitulah cara Anda harus bergerak
Sebagai dokter radiologi, saya melihat Claude dan ChatGPT benar-benar buruk dalam membaca MRI, dan saya sama sekali tidak akan mempercayainya. Mereka punya keunggulan saat meneliti materi berbasis teks, tetapi belum cukup baik dalam menafsirkan citra radiologi
Saat ini perangkat lunak MR Siemens Deep Resolve menghasilkan sinyal (sekitar tambahan 50%), lalu menghasilkan satu dari setiap dua piksel, dan pada sekuens 3D menghasilkan satu dari setiap dua slice. Ini mengurangi sekitar 59% waktu tiap sekuens, dan benar-benar sangat bagus
Saya teknolog MR
Sebenarnya saya penasaran berapa ELO ChatGPT 5.5. Berkat konten yang diserapnya, saya tidak akan terlalu terkejut kalau hanya dengan pemahaman dasar tentang prinsip catur pun nilainya di atas 2000
Saya tidak memahami reaksi negatifnya. Layanan kesehatan saat ini berjalan hanya jika dokter dan pasien sama-sama berpikir. Hampir tidak pernah ada masalah yang dokternya memberi diagnosis lalu saya tinggal melanjutkan hari begitu saja. Ketika hal seperti itu terjadi, biasanya karena saya sudah yakin dengan masalahnya dan tahu apa yang dibutuhkan. Dokter justru menjadi penghalang akses ke pengobatan
Dr. GPT adalah alat brainstorming yang bagus. Ia mensintesis informasi dengan cara yang sulit dilakukan hanya dari materi sumber mentah. Namun, ia juga memaksa kita mengatakan “ini tidak masuk akal”
Menurut saya argumen bahwa “dokter tidak tahu pengetahuan terbaru” dasarnya lemah. Melihat kepadatan token selama prapelatihan dan bagaimana dataset pascapelatihan disusun, akan butuh waktu sangat lama untuk beradaptasi dengan perubahan mendasar. Jika kita lupa cara mengobati skorbut, berapa banyak makalah yang diperlukan agar bisa beradaptasi dengan temuan baru?
Untuk gambar, saya tidak akan mempercayai AI. Namun suatu kali, ChatGPT hanya melihat teks laporan MRI dan mengatakan bahwa laporan itu sangat mungkin salah, lalu mengusulkan diagnosis lain. Ia cukup tegas, jadi saya pergi ke dokter lain dan menjalani pemeriksaan ulang. Singkatnya, ChatGPT benar
Sekali lagi, ini hanya pengalaman tunggal dari satu orang, jadi tidak terlalu bermakna
Saya tidak mengerti mengapa dokter tidak setidaknya mencoba memasukkan prompt ke LLM sebelum mengatakan sesuatu yang keliru. Karena gengsi?
Saya bisa memahami bahwa radiologi membutuhkan jaringan saraf konvolusional yang terspesialisasi, tetapi ini lebih berlaku lagi untuk masalah yang cenderung berbasis pengetahuan
Sepertinya akan muncul banyak VLM terspesialisasi yang memberikan nilai nyata
Mainan-mainan seperti ini sama sekali tidak bisa dipercaya. Bukan berarti tidak berguna, tetapi tidak bisa dipercaya