Dalam studi Stanford Law, AI menunjukkan hasil yang lebih baik daripada profesor hukum
(law.stanford.edu)- Dalam studi Stanford Law School, para profesor hukum sangat lebih memilih jawaban yang dihasilkan AI dibanding jawaban dari sesama profesor untuk pertanyaan mahasiswa, menunjukkan hasil yang dapat memengaruhi cara pendidikan hukum diberikan
- Dalam evaluasi buta yang melibatkan 16 profesor hukum dari sekolah hukum di AS, dilakukan sekitar 3.000 perbandingan anonim, dan AI mencatat tingkat kemenangan 75% dalam perbandingan langsung melawan jawaban profesor
- Para peserta membuat 40 pertanyaan yang kemungkinan akan diajukan mahasiswa setelah kelas hukum kontrak atau saat jam konsultasi, lalu menjawabnya sendiri sebelum menilai jawaban AI dan jawaban profesor lain tanpa mengetahui sumbernya
- Para profesor menandai jawaban AI sebagai merugikan secara pedagogis hanya 3,5% dari waktu, dibanding 12% untuk jawaban sesama profesor, dan sistem AI menunjukkan kinerja yang sebanding dengan pengajar manusia terbaik dalam studi tersebut
- Hasil ini tidak serta-merta mendukung adopsi penuh tutor AI, tetapi memberikan dasar untuk membahas cara penerapan yang bertanggung jawab bahkan di bidang yang sangat bergantung pada penilaian seperti hukum
Desain penelitian dan hasil utama
- Studi yang dipimpin profesor Stanford Law School Julian Nyarko berjudul “Law Professors Prefer AI Over Peer Answers” menguji apakah model bahasa besar dapat berperan sebagai tutor yang efektif untuk kelas hukum kontrak
- Penelitian ini melibatkan 16 profesor hukum dari sekolah hukum di AS, dan para peserta membuat 40 pertanyaan representatif tentang hukum kontrak yang mungkin diajukan mahasiswa setelah kelas atau saat jam konsultasi, lalu menulis jawabannya sendiri
- Para profesor menilai jawaban tanpa mengetahui apakah jawaban itu berasal dari AI atau dari profesor peserta lain, dan dalam sekitar 3.000 perbandingan anonim, jawaban AI menunjukkan tingkat kemenangan langsung sebesar 75%
- Tim peneliti menyesuaikan panjang dan struktur jawaban AI agar sesuai dengan jawaban manusia, menggunakan beberapa metode evaluasi, dan juga meminta profesor menilai apakah jawaban tersebut dapat menyesatkan atau membingungkan mahasiswa
- Sistem AI menunjukkan kinerja yang sebanding dengan pengajar manusia terbaik dalam studi tersebut, dan persentase jawaban yang ditandai merugikan secara pedagogis adalah 3,5% untuk jawaban AI dan 12% untuk jawaban sesama profesor
Makna dan batasan bagi pendidikan hukum
- Hukum adalah bidang yang sering tidak memiliki satu jawaban benar yang jelas, dan argumen yang saling bertentangan pun bisa sama-sama meyakinkan, sehingga penilaian, penalaran yang bernuansa, dan kemampuan menghadapi ambiguitas menjadi penting
- Tim peneliti juga meninjau beberapa model AI, termasuk sistem tutor komersial dan NotebookLM dari Google, dan terdapat perbedaan performa antar model
- Bahkan ketika keterbatasan konteks memengaruhi jawaban AI, para profesor tetap sering lebih memilih jawaban AI dibanding alternatif yang ditulis manusia
- Sekolah hukum perlu menjaga standar akademik yang ketat saat mempertimbangkan integrasi alat AI ke dalam pendidikan hukum, sambil mempertimbangkan juga risiko seperti halusinasi, ketergantungan berlebihan, dan melemahnya kemampuan berpikir kritis
- Studi ini menilai kualitas jawaban yang dihasilkan alat AI, tetapi cara implementasi yang paling efektif untuk meningkatkan pembelajaran mahasiswa masih menjadi pertanyaan terbuka, dan diskusi perlu bergeser dari sekadar apakah AI dapat memberikan jawaban yang akurat dan berkualitas tinggi ke bagaimana menerapkannya secara bertanggung jawab agar benar-benar membantu mahasiswa
1 komentar
Komentar Hacker News
Riset ini cukup meragukan. Perlu digali lebih jauh, tetapi siapa pun yang membacanya seharusnya mendengar sinyal peringatan yang sangat keras
Figure 2 (halaman 6) terlihat bermasalah. Hanya ada 16 profesor, tetapi masing-masing dibandingkan 3 ribu kali, dan hasil per profesor juga sangat bervariasi. Variansnya sangat besar, sehingga tampak seperti sinyal bahwa riset ini tidak punya daya uji statistik yang bermakna
Selain itu, hasil utama hanya memuat model Google, jadi terlihat ada bias yang jelas. Model lain muncul di bagian lain, jadi mengapa mereka tidak masuk ke hasil inti patut dipertanyakan
Saya bukan ahli hukum, tetapi saya cukup paham statistik, dan saya bisa bilang dengan yakin bahwa makalah ini terasa mencurigakan. Saya tidak bisa memastikan ini omong kosong, tetapi tanda bahayanya ada di mana-mana
Sebagai penilai, para profesor melakukan 2.918 perbandingan pilihan paksa buta, median per penilai adalah 200 kasus, dan setiap kali mereka memilih jawaban yang ingin mereka berikan kepada mahasiswa antara jawaban instruktur yang dianonimkan dan jawaban LLM
Saya bahkan pernah melihat makalah yang menyebut memasukkan wawancara dan protokol ke ChatGPT lalu mengeluarkan hasilnya sebagai “metodologi”. Itu lolos peer review dan sampai diterbitkan
Ini mungkin bisa dijelaskan mirip film Hollywood. Jika sebuah film dibuat untuk memuaskan sebanyak mungkin orang, kemungkinan besar orang akan memilihnya dibanding film lain
Profesor hukum manusia membawa kepribadian, keyakinan, dan opini mereka ke dalam tulisan, sedangkan LLM dilatih untuk memuaskan audiens seluas mungkin. Itu tidak berarti jawabannya lebih baik. Sama seperti Captain America tidak otomatis lebih baik daripada American Beauty
Sebagai software engineer, saya punya sedikit intuisi tentang jenis tugas apa yang berbahaya jika diserahkan ke agen
Tapi saat menyerahkan penyusunan draf dokumen hukum kepada AI, intuisi serupa tentang apa yang bisa salah belum benar-benar terkalibrasi. Hal seperti membuat surat wasiat kelihatannya tidak berbahaya, tapi sebenarnya saya juga tidak yakin. Sistem hukum terkenal penuh jebakan
Model ini dengan mudah menyisipkan kutipan yang terdengar meyakinkan dari perkara lain, seolah-olah benar-benar membuktikan argumen yang diinginkan, bahkan sampai mengarang nama perkara yang terdengar nyata seperti United States v. Shenzhou Electronics Inc. Setelah beberapa kali meninjau dan tidak menemukan kutipan palsu, kita bisa lengah, lalu di pengajuan berikutnya tiba-tiba muncul tiga sekaligus
Meski begitu, pengacara yang tidak memakai LLM untuk riset akan tertinggal. Kemampuannya luar biasa untuk menemukan preseden niche yang kemungkinan besar tidak akan pernah saya temukan sendiri. Dulu pencarian sangat bergantung pada kecocokan kata kunci yang presisi, dan dalam riset hukum itu pada dasarnya sering tidak terlalu berguna. Yang dibutuhkan adalah sesuatu yang bisa mencari dengan kriteria yang lebih samar, dan AI sangat bagus dalam hal itu. Tetap saja, hasilnya harus selalu diverifikasi. LLM milik Lexis Nexis atau Westlaw kemungkinan lebih baik daripada model umum
LLM adalah asisten hukum yang sangat baik. Jika Anda bekerja di bidang hukum, Anda sebaiknya memakainya setidaknya untuk melempar ide. Cocok juga dipakai sebagai devil’s advocate dari sisi lawan. Seorang teman saya selalu memintanya berperan sebagai pengacara pihak lawan untuk memeriksa semua sanggahan yang mungkin muncul
Sama seperti pengembangan perangkat lunak. Jika hasil yang dibuat itu penting, output-nya harus diperiksa
Rasanya seperti membandingkan apa yang saya cari sebagai administrator sistem dengan apa yang dicari Jane dari tim akuntansi. Pengguna akhir nonteknis jauh lebih mungkin memperburuk masalah, atau memasang sesuatu yang mencurigakan dari hasil pencarian penuh iklan. Saya atau staf helpdesk jauh lebih kecil kemungkinannya melakukan itu
Saya tidak akan percaya pada AI untuk menyusun dokumen hukum penting tanpa nasihat pengacara. Demikian juga, saya tidak ingin bergantung pada pengacara saya untuk menulis kode saya dengan AI
Dokumen hukum tidak memiliki automated test, static typing, environment pengujian, instrumentasi logging/observability, maupun sandboxing
Jeda waktu antara penulisan dan “deployment” juga membuat loop debugging jauh kurang efektif dan lebih mahal. Kode bisa dideploy ke production dalam hitungan detik, error bisa dilihat di log, lalu langsung di-debug. Tetapi kesalahan dalam kontrak atau dokumen yang diajukan ke pengadilan baru ditemukan setidaknya beberapa hari kemudian, dan sering kali baru setelah beberapa tahun; pada saat itu, banyak yang sudah tidak bisa diperbaiki. Karena itu, error lebih sulit ditemukan sekaligus lebih sulit diselesaikan
Konsekuensi error juga umumnya jauh lebih besar. Kadang tidak bisa diperbaiki, dan kesalahan hukum bisa mempertaruhkan nyawa, kebebasan, atau harta yang sangat besar milik seseorang. Tentu saja, bug pada sistem yang kritikal terhadap keselamatan bisa sama buruknya atau bahkan lebih buruk daripada kesalahan hukum, jadi ini bukan pemisahan mutlak. Meski begitu, secara umum sebagian besar software berisiko lebih rendah daripada sebagian besar dokumen hukum
Sebaliknya, untuk gaya dan struktur dasar dokumen hukum, LLM tampaknya lebih baik daripada untuk kode. Misalnya mengikuti format IRAC, menambahkan kutipan pada proposisi hukum, dan menulis kalimat yang dapat dipahami. Tentu saja halusinasi tetap menjadi masalah. Dalam kode, ini kira-kira setara dengan praktik baik seperti komentar yang bagus, kohesi, penggunaan design pattern yang konsisten, test coverage, nama variabel yang jelas, dan DRY
Bahwa model lebih baik pada metrik kualitatif seperti ini mungkin karena bahkan dokumen hukum terpanjang pun biasanya secara struktur lebih sederhana dan jumlah baris teksnya lebih sedikit dibanding codebase besar yang kompleks. Atau mungkin karena LLM dilatih lebih banyak pada teks bahasa alami daripada kode, atau karena bahasa alami lebih toleran daripada kode. Perbedaan kecil dalam ekspresi atau tata bahasa mungkin tidak terlalu memengaruhi interpretasi dokumen, sedangkan kesalahan satu karakter dalam kode bisa berdampak sangat besar
Meski studi khusus ini buruk, secara umum ini tidak terlalu mengejutkan
Dalam pekerjaan hukum ada area yang menganalisis teks dalam jumlah besar, menarik kesimpulan, lalu menulis teks lain berdasarkan itu. Itu secara harfiah adalah bidang andalan LLM
Jenis pengacara seperti itu seharusnya berada di barisan paling depan antrean pengangguran. Bukan programmer, benar-benar tidak ada bandingannya
Logika bisa dieksekusi, dan loop bisa dibentuk dari output. Lebih mudah menyiapkan reinforcement learning yang lebih berguna, dan juga lebih mudah membuat data pembelajaran sintetis. Penggunaan alat dan paralelisasi agen juga didukung secara alami. Integrasi API juga lebih mudah dibanding sedikit sekali API yang disediakan sistem pengadilan
Pemrograman secara eksplisit mengodekan abstraksi pada tingkat fungsi dan modul, sehingga lebih mudah dijadikan knowledge graph, ditalar, dan dibangun di atasnya daripada sekadar potongan teks
AI itu seperti keropeng di atas luka. Ia untuk sementara menutup celah dan buru-buru mengisi kekosongan, tetapi mungkin bukan solusi akhir
Model-model ini menunjukkan bahwa ada permintaan besar yang selama ini tidak terpenuhi terhadap literasi, baik di perangkat lunak maupun hukum. Sekarang pilihannya adalah memperbaiki penyebab struktural dari kebutuhan yang tak terpenuhi itu, atau menutupinya dengan lapisan demi lapisan keropeng AI
Fokusnya jauh lebih besar pada analisis dan peringkasan teks yang sudah ada, dan teks-teks itu sendiri juga lebih mudah dipakai untuk pelatihan LLM. Misalnya undang-undang, preseden, jurnal hukum, dan buku teks
Jadi ini kemungkinan adalah pekerjaan hukum yang paling mudah di-LLM-kan, tetapi sekaligus mungkin yang nilainya paling rendah. Profesor hukum tentu tidak dibayar setinggi pengacara BigLaw. Pendekatan ini tidak akan langsung bisa diskalakan begitu saja. Bukan berarti AI tidak bisa menembus BigLaw, tetapi itu akan menjadi tantangan yang berbeda
Saya paham mengapa diskusi atas tulisan ini mengalir ke arah itu, tetapi studi itu sendiri berfokus pada kemungkinan LLM berfungsi sebagai tutor mahasiswa hukum. Menarik memang memperluasnya ke apakah LLM akan menggantikan pengacara, tetapi itu bukan yang dibahas studi tersebut
Jika kerangkanya adalah memakai LLM sebagai tutor hukum dan menurunkan biaya pendidikan hukum, itu tampak seperti hasil yang positif secara sosial. Lebih jauh, jika sistem LLM mutakhir dapat mengakses bahan rujukan hukum, secara intuitif masuk akal bahwa ia bisa menjawab pertanyaan yang diajukan mahasiswa secara komprehensif dan memberi petunjuk atau rujukan langsung ke materi ajar atau sumber asli. Hasil studi juga tampaknya mengarah ke sana
Para penulis secara eksplisit dan sengaja menekankan bahwa banyak pertanyaan hukum tidak memiliki jawaban komputasional yang terpisah begitu saja, melainkan membutuhkan kontekstualisasi. Hasil studi ini menunjukkan bahwa sistem berbasis LLM dapat, melalui “pembuatan algoritme pencocokan optimal probabilistik” dari model bahasa modern, mengontekstualisasikan pertanyaan mahasiswa secara tepat, menjelaskan trade-off atau kompleksitas yang melekat pada pertanyaan itu, lalu—yang terpenting—menjelaskan kompleksitas tersebut kepada mahasiswa dengan standar profesional pendidik hukum
Secara praktis, saya berharap hasil ini bisa memberi sedikit kepercayaan diri kepada pembaca HN bahwa ketika mereka melempar pertanyaan hukum ke LLM, mereka dapat mengharapkan jawaban yang menjelaskan kompleksitas hukum yang relevan dengan pertanyaan itu. Itu kabar baik, dan jika waktu memungkinkan, kemungkinan ini adalah pekerjaan persiapan minimal yang sebaiknya kita lakukan sebelum benar-benar berkonsultasi dengan pengacara
Di sisi lain, saya tidak menganggap studi ini memberi sinyal bahwa LLM sudah siap untuk benar-benar memberikan nasihat hukum secara langsung. Ini mirip dengan bagaimana buku teks hukum tidak menggantikan nasihat hukum, atau lebih tepatnya seperti kebetulan menemukan kasus hukum yang kira-kira mirip dengan situasi saya tidak berarti hasilnya akan sama
Figure I.1 mengatakan banyak hal. Panjang jawaban muncul sebagai prediktor terkuat untuk tingkat kemenangan. Ini kemungkinan akibat cacat metodologis dalam studi tersebut
Para profesor diminta menjawab secara ringkas. Kurang lebih seperti, “harap ditulis singkat. Tiap jawaban diperkirakan tidak akan memakan waktu lebih dari 3 menit,” jadi kemungkinan mereka terdorong untuk menulis pendek. Dalam kondisi yang sejak awal menuntut keringkasan, para profesor mungkin tidak mengerahkan banyak usaha pada jawaban tertulis mereka. Ini bukan headline yang dibayangkan para penulis
Mengejutkan Stanford Law menyetujui judul siaran pers yang seberlebihan ini. Seharusnya sesuatu seperti, “Untuk pertanyaan kontrak umum tahun pertama, profesor hukum lebih menyukai jawaban buatan AI daripada jawaban buatan profesor”
Dugaan terbaik saya adalah Gemini dilatih pada buku teks yang ingin diuji oleh pertanyaan-pertanyaan itu, sehingga mungkin lebih kuat dalam mengingat secara eksplisit pertanyaan tersebut atau pertanyaan yang terkait
Dari yang tertulis dalam metodologi makalah, ini tampaknya mata kuliah pengantar yang cukup terbatas
Edit: Saya baru sadar bahwa Google adalah donor utama HAI. Kalau begitu, studi ini setidaknya sebagian didanai oleh Google. Mungkin itu juga sebabnya para penulis tidak bisa menyatakan tidak ada konflik kepentingan
Bidang hukum pada dasarnya sangat cocok untuk model bahasa AI. Pada dasarnya semuanya dibangun di atas teks yang saling terhubung
Saya kira gelombang PHK di sini bisa lebih besar daripada di bidang TI. Hanya saja kemungkinan akan ada lobi yang lebih kuat, dan mereka akan mencoba sangat melebih-lebihkan nilai pekerjaan mereka untuk menghalangi pendatang dari luar
Tetapi gelombang itu sudah dimulai, dan skalanya akan sangat besar. Klien korporat menuntut penggunaan AI. Mereka tidak mau membayar associate menghabiskan berjam-jam menulis draf lalu partner meninjaunya. Mereka ingin partner terbaik memakai AI dan hanya melakukan penyuntingan akhir
Hal yang tidak bisa dilakukan LLM adalah menjelaskan mengapa ia mengatakan sesuatu saat menghadapi pemeriksaan silang. Ia hanya akan menghalusinasikan penjelasan terbaik tentang mengapa seseorang mungkin mengatakan apa yang telah ia katakan, dan juga bisa memberikan alasan yang terdengar masuk akal mengapa orang lain mungkin mengatakan hal yang berbeda
Pertanyaan seperti “mengapa mengatakan ini dan bukan itu?” tidak memaksa dasar dari ucapan itu menjadi eksplisit, melainkan hanya membuat pernyataan baru yang lebih kompleks
Namun ada teknik penyusunan konteks LLM yang mengikat hasil akhir ke struktur data. Struktur data itu mempertahankan susunan klaim yang mendukung kesimpulan dalam teks yang dihasilkan. Mengorganisasi logika di dalam bahasa adalah ranah yang kaya, jadi ada berbagai pola, dan yang paling saya suka adalah sesuatu yang disebut Claim Dependency Graph, yang memodelkan hubungan antar klaim atomik sebagai sisi graf
Ada banyak operasi yang bisa dijalankan di atas struktur seperti ini, dan “rekonstruksikan bagaimana sampai pada kesimpulan ini” jelas salah satunya
Bahkan untuk pikiran yang lebih matang, kalau beruntung kita mungkin masih bisa mengingat “jejak penalaran”, tetapi refleksi diri kita memang sebatas itu. Kecuali Anda seorang ilmuwan saraf, kita bahkan tidak tahu berapa banyak neuron yang kita miliki, apalagi bagaimana semuanya menghasilkan pikiran
Penalaran yang termotivasi makin mengganggu refleksi diri, dan ketika ditambah ketidakjujuran serta kesalahan komunikasi, bahkan informasi terbatas yang tersisa pun tidak tersampaikan dengan baik satu sama lain
Riset interpretabilitas model telah banyak berkembang. Secara kontroversial, orang bahkan bisa berargumen bahwa kita sudah lebih mampu menjelaskan pengambilan keputusan AI daripada otak manusia
Meminta LLM memberi anotasi sumber, seperti halnya pada manusia, dapat sangat meningkatkan pencocokan pola yang meniru logika dari dekat
Saya paham apa yang dimaksud dengan pertanyaan “mengapa mengatakan ini dan bukan itu”. Hanya saja, saya juga pernah melihat cara-cara lain untuk bertanya agar LLM tidak bereaksi berlebihan ke arah sebaliknya