1 poin oleh GN⁺ 1 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Dalam studi Stanford Law School, para profesor hukum sangat lebih memilih jawaban yang dihasilkan AI dibanding jawaban dari sesama profesor untuk pertanyaan mahasiswa, menunjukkan hasil yang dapat memengaruhi cara pendidikan hukum diberikan
  • Dalam evaluasi buta yang melibatkan 16 profesor hukum dari sekolah hukum di AS, dilakukan sekitar 3.000 perbandingan anonim, dan AI mencatat tingkat kemenangan 75% dalam perbandingan langsung melawan jawaban profesor
  • Para peserta membuat 40 pertanyaan yang kemungkinan akan diajukan mahasiswa setelah kelas hukum kontrak atau saat jam konsultasi, lalu menjawabnya sendiri sebelum menilai jawaban AI dan jawaban profesor lain tanpa mengetahui sumbernya
  • Para profesor menandai jawaban AI sebagai merugikan secara pedagogis hanya 3,5% dari waktu, dibanding 12% untuk jawaban sesama profesor, dan sistem AI menunjukkan kinerja yang sebanding dengan pengajar manusia terbaik dalam studi tersebut
  • Hasil ini tidak serta-merta mendukung adopsi penuh tutor AI, tetapi memberikan dasar untuk membahas cara penerapan yang bertanggung jawab bahkan di bidang yang sangat bergantung pada penilaian seperti hukum

Desain penelitian dan hasil utama

  • Studi yang dipimpin profesor Stanford Law School Julian Nyarko berjudul “Law Professors Prefer AI Over Peer Answers” menguji apakah model bahasa besar dapat berperan sebagai tutor yang efektif untuk kelas hukum kontrak
  • Penelitian ini melibatkan 16 profesor hukum dari sekolah hukum di AS, dan para peserta membuat 40 pertanyaan representatif tentang hukum kontrak yang mungkin diajukan mahasiswa setelah kelas atau saat jam konsultasi, lalu menulis jawabannya sendiri
  • Para profesor menilai jawaban tanpa mengetahui apakah jawaban itu berasal dari AI atau dari profesor peserta lain, dan dalam sekitar 3.000 perbandingan anonim, jawaban AI menunjukkan tingkat kemenangan langsung sebesar 75%
  • Tim peneliti menyesuaikan panjang dan struktur jawaban AI agar sesuai dengan jawaban manusia, menggunakan beberapa metode evaluasi, dan juga meminta profesor menilai apakah jawaban tersebut dapat menyesatkan atau membingungkan mahasiswa
  • Sistem AI menunjukkan kinerja yang sebanding dengan pengajar manusia terbaik dalam studi tersebut, dan persentase jawaban yang ditandai merugikan secara pedagogis adalah 3,5% untuk jawaban AI dan 12% untuk jawaban sesama profesor

Makna dan batasan bagi pendidikan hukum

  • Hukum adalah bidang yang sering tidak memiliki satu jawaban benar yang jelas, dan argumen yang saling bertentangan pun bisa sama-sama meyakinkan, sehingga penilaian, penalaran yang bernuansa, dan kemampuan menghadapi ambiguitas menjadi penting
  • Tim peneliti juga meninjau beberapa model AI, termasuk sistem tutor komersial dan NotebookLM dari Google, dan terdapat perbedaan performa antar model
  • Bahkan ketika keterbatasan konteks memengaruhi jawaban AI, para profesor tetap sering lebih memilih jawaban AI dibanding alternatif yang ditulis manusia
  • Sekolah hukum perlu menjaga standar akademik yang ketat saat mempertimbangkan integrasi alat AI ke dalam pendidikan hukum, sambil mempertimbangkan juga risiko seperti halusinasi, ketergantungan berlebihan, dan melemahnya kemampuan berpikir kritis
  • Studi ini menilai kualitas jawaban yang dihasilkan alat AI, tetapi cara implementasi yang paling efektif untuk meningkatkan pembelajaran mahasiswa masih menjadi pertanyaan terbuka, dan diskusi perlu bergeser dari sekadar apakah AI dapat memberikan jawaban yang akurat dan berkualitas tinggi ke bagaimana menerapkannya secara bertanggung jawab agar benar-benar membantu mahasiswa

1 komentar

 
GN⁺ 1 jam lalu
Komentar Hacker News
  • Riset ini cukup meragukan. Perlu digali lebih jauh, tetapi siapa pun yang membacanya seharusnya mendengar sinyal peringatan yang sangat keras
    Figure 2 (halaman 6) terlihat bermasalah. Hanya ada 16 profesor, tetapi masing-masing dibandingkan 3 ribu kali, dan hasil per profesor juga sangat bervariasi. Variansnya sangat besar, sehingga tampak seperti sinyal bahwa riset ini tidak punya daya uji statistik yang bermakna
    Selain itu, hasil utama hanya memuat model Google, jadi terlihat ada bias yang jelas. Model lain muncul di bagian lain, jadi mengapa mereka tidak masuk ke hasil inti patut dipertanyakan
    Saya bukan ahli hukum, tetapi saya cukup paham statistik, dan saya bisa bilang dengan yakin bahwa makalah ini terasa mencurigakan. Saya tidak bisa memastikan ini omong kosong, tetapi tanda bahayanya ada di mana-mana

    • Memang benar, tetapi 2 tahun lalu narasinya adalah AI itu “alat yang mengesankan, tetapi tidak akan menggantikan pekerja pengetahuan”, sedangkan sekarang menjadi “mungkin ada cacat metodologis dalam riset yang menyatakan AI mengalahkan pekerja pengetahuan papan atas”. Dua tahun lagi mungkin habis sudah
    • Yang lebih dari itu, keseluruhan struktur riset ini tampak tidak bermakna. Mereka menyusunnya dalam bentuk tanya/jawab lalu meminta manusia menilai jawabannya, padahal itu benar-benar hal yang dilatih untuk dilakukan oleh LLM. Pada akhirnya ini hanyalah pekerjaan meyakinkan manusia agar menekan tombol “jawaban ini lebih baik”
    • Terlepas dari kemungkinan bahwa keseluruhan makalah ini agak ambigu, menarik bahwa rasio harmfulness Instructor 3 dan 8 jauh lebih rendah daripada LLM, tetapi tingkat preferensinya bukan yang tertinggi. Harmfulness bergerak berlawanan dengan preferensi, tetapi tidak sepenuhnya. Tampaknya bahkan dalam pilihan para ahli, karisma punya pengaruh tertentu
    • Angka 3 ribu tampaknya berasal dari sini, dan dijelaskan di makalah
      Sebagai penilai, para profesor melakukan 2.918 perbandingan pilihan paksa buta, median per penilai adalah 200 kasus, dan setiap kali mereka memilih jawaban yang ingin mereka berikan kepada mahasiswa antara jawaban instruktur yang dianonimkan dan jawaban LLM
    • Kalau melihat makalah belakangan ini, makin sering muncul pola “mewawancarai 8 orang lalu menarik kesimpulan berdasarkan opini ahli”. Bidang AI dan keamanan siber terutama penuh dengan hal seperti ini
      Saya bahkan pernah melihat makalah yang menyebut memasukkan wawancara dan protokol ke ChatGPT lalu mengeluarkan hasilnya sebagai “metodologi”. Itu lolos peer review dan sampai diterbitkan
  • Ini mungkin bisa dijelaskan mirip film Hollywood. Jika sebuah film dibuat untuk memuaskan sebanyak mungkin orang, kemungkinan besar orang akan memilihnya dibanding film lain
    Profesor hukum manusia membawa kepribadian, keyakinan, dan opini mereka ke dalam tulisan, sedangkan LLM dilatih untuk memuaskan audiens seluas mungkin. Itu tidak berarti jawabannya lebih baik. Sama seperti Captain America tidak otomatis lebih baik daripada American Beauty

  • Sebagai software engineer, saya punya sedikit intuisi tentang jenis tugas apa yang berbahaya jika diserahkan ke agen
    Tapi saat menyerahkan penyusunan draf dokumen hukum kepada AI, intuisi serupa tentang apa yang bisa salah belum benar-benar terkalibrasi. Hal seperti membuat surat wasiat kelihatannya tidak berbahaya, tapi sebenarnya saya juga tidak yakin. Sistem hukum terkenal penuh jebakan

    • Saya sudah cukup sering memakai AI LLM serbaguna, misalnya Claude atau GPT yang umum, untuk menyusun draf dokumen hukum. Jebakan terbesarnya adalah kutipan preseden yang berhalusinasi
      Model ini dengan mudah menyisipkan kutipan yang terdengar meyakinkan dari perkara lain, seolah-olah benar-benar membuktikan argumen yang diinginkan, bahkan sampai mengarang nama perkara yang terdengar nyata seperti United States v. Shenzhou Electronics Inc. Setelah beberapa kali meninjau dan tidak menemukan kutipan palsu, kita bisa lengah, lalu di pengajuan berikutnya tiba-tiba muncul tiga sekaligus
      Meski begitu, pengacara yang tidak memakai LLM untuk riset akan tertinggal. Kemampuannya luar biasa untuk menemukan preseden niche yang kemungkinan besar tidak akan pernah saya temukan sendiri. Dulu pencarian sangat bergantung pada kecocokan kata kunci yang presisi, dan dalam riset hukum itu pada dasarnya sering tidak terlalu berguna. Yang dibutuhkan adalah sesuatu yang bisa mencari dengan kriteria yang lebih samar, dan AI sangat bagus dalam hal itu. Tetap saja, hasilnya harus selalu diverifikasi. LLM milik Lexis Nexis atau Westlaw kemungkinan lebih baik daripada model umum
      LLM adalah asisten hukum yang sangat baik. Jika Anda bekerja di bidang hukum, Anda sebaiknya memakainya setidaknya untuk melempar ide. Cocok juga dipakai sebagai devil’s advocate dari sisi lawan. Seorang teman saya selalu memintanya berperan sebagai pengacara pihak lawan untuk memeriksa semua sanggahan yang mungkin muncul
      Sama seperti pengembangan perangkat lunak. Jika hasil yang dibuat itu penting, output-nya harus diperiksa
    • Ini tampaknya berlaku untuk sebagian besar profesi terampil. AI paling efektif dipakai oleh orang yang memang sudah sangat memahami keterampilan atau profesi tersebut
      Rasanya seperti membandingkan apa yang saya cari sebagai administrator sistem dengan apa yang dicari Jane dari tim akuntansi. Pengguna akhir nonteknis jauh lebih mungkin memperburuk masalah, atau memasang sesuatu yang mencurigakan dari hasil pencarian penuh iklan. Saya atau staf helpdesk jauh lebih kecil kemungkinannya melakukan itu
      Saya tidak akan percaya pada AI untuk menyusun dokumen hukum penting tanpa nasihat pengacara. Demikian juga, saya tidak ingin bergantung pada pengacara saya untuk menulis kode saya dengan AI
    • Sebagai pengacara sekaligus software engineer, sejauh pengalaman saya saat ini, tingkat kesalahan LLM pada kode dan draf dokumen hukum cukup mirip. Hanya saja, dalam konteks hukum dampaknya jauh lebih bermasalah. Dokumen hukum tidak punya banyak pengaman struktural yang ada pada kode
      Dokumen hukum tidak memiliki automated test, static typing, environment pengujian, instrumentasi logging/observability, maupun sandboxing
      Jeda waktu antara penulisan dan “deployment” juga membuat loop debugging jauh kurang efektif dan lebih mahal. Kode bisa dideploy ke production dalam hitungan detik, error bisa dilihat di log, lalu langsung di-debug. Tetapi kesalahan dalam kontrak atau dokumen yang diajukan ke pengadilan baru ditemukan setidaknya beberapa hari kemudian, dan sering kali baru setelah beberapa tahun; pada saat itu, banyak yang sudah tidak bisa diperbaiki. Karena itu, error lebih sulit ditemukan sekaligus lebih sulit diselesaikan
      Konsekuensi error juga umumnya jauh lebih besar. Kadang tidak bisa diperbaiki, dan kesalahan hukum bisa mempertaruhkan nyawa, kebebasan, atau harta yang sangat besar milik seseorang. Tentu saja, bug pada sistem yang kritikal terhadap keselamatan bisa sama buruknya atau bahkan lebih buruk daripada kesalahan hukum, jadi ini bukan pemisahan mutlak. Meski begitu, secara umum sebagian besar software berisiko lebih rendah daripada sebagian besar dokumen hukum
      Sebaliknya, untuk gaya dan struktur dasar dokumen hukum, LLM tampaknya lebih baik daripada untuk kode. Misalnya mengikuti format IRAC, menambahkan kutipan pada proposisi hukum, dan menulis kalimat yang dapat dipahami. Tentu saja halusinasi tetap menjadi masalah. Dalam kode, ini kira-kira setara dengan praktik baik seperti komentar yang bagus, kohesi, penggunaan design pattern yang konsisten, test coverage, nama variabel yang jelas, dan DRY
      Bahwa model lebih baik pada metrik kualitatif seperti ini mungkin karena bahkan dokumen hukum terpanjang pun biasanya secara struktur lebih sederhana dan jumlah baris teksnya lebih sedikit dibanding codebase besar yang kompleks. Atau mungkin karena LLM dilatih lebih banyak pada teks bahasa alami daripada kode, atau karena bahasa alami lebih toleran daripada kode. Perbedaan kecil dalam ekspresi atau tata bahasa mungkin tidak terlalu memengaruhi interpretasi dokumen, sedangkan kesalahan satu karakter dalam kode bisa berdampak sangat besar
    • Menulis surat wasiat sama sekali bukan hal yang tidak berbahaya. Bagi pelaksana warisan yang harus menangani surat wasiat AI yang rusak, jelas itu tidak terasa demikian. Musim semi ini saya mengurus warisan ayah saya, dan bahkan warisan yang paling sederhana pun merupakan proses yang membuat frustrasi dan membingungkan
    • Saya tidak menganggap penulisan surat wasiat itu tidak berbahaya. Jika ditulis dengan salah, kerabat dekat bisa menanggung masalah besar dan harus melalui proses probate yang berlangsung berbulan-bulan atau bahkan bertahun-tahun
  • Meski studi khusus ini buruk, secara umum ini tidak terlalu mengejutkan
    Dalam pekerjaan hukum ada area yang menganalisis teks dalam jumlah besar, menarik kesimpulan, lalu menulis teks lain berdasarkan itu. Itu secara harfiah adalah bidang andalan LLM
    Jenis pengacara seperti itu seharusnya berada di barisan paling depan antrean pengangguran. Bukan programmer, benar-benar tidak ada bandingannya

    • Fakta bahwa ini secara teoretis adalah bidang andalan LLM tidak berarti LLM benar-benar bisa melakukan pekerjaan itu. Singkirkan dulu keyakinan awal; ini tetap perlu dibuktikan. Hukum adalah sistem yang berkaitan langsung dengan nyawa dan harus melalui tingkat verifikasi tertinggi
    • Memang benar ini adalah bidang andalan LLM. Tetapi dari sisi pemanfaatan LLM, pemrograman punya lebih banyak keunggulan dibanding hukum
      Logika bisa dieksekusi, dan loop bisa dibentuk dari output. Lebih mudah menyiapkan reinforcement learning yang lebih berguna, dan juga lebih mudah membuat data pembelajaran sintetis. Penggunaan alat dan paralelisasi agen juga didukung secara alami. Integrasi API juga lebih mudah dibanding sedikit sekali API yang disediakan sistem pengadilan
      Pemrograman secara eksplisit mengodekan abstraksi pada tingkat fungsi dan modul, sehingga lebih mudah dijadikan knowledge graph, ditalar, dan dibangun di atasnya daripada sekadar potongan teks
    • Masalah AI yang sama terlihat baik di pemrograman maupun hukum
      AI itu seperti keropeng di atas luka. Ia untuk sementara menutup celah dan buru-buru mengisi kekosongan, tetapi mungkin bukan solusi akhir
      Model-model ini menunjukkan bahwa ada permintaan besar yang selama ini tidak terpenuhi terhadap literasi, baik di perangkat lunak maupun hukum. Sekarang pilihannya adalah memperbaiki penyebab struktural dari kebutuhan yang tak terpenuhi itu, atau menutupinya dengan lapisan demi lapisan keropeng AI
    • Subjek studi ini adalah orang-orang akademik. Bukan ingin meremehkan mereka atau pekerjaan mereka, tetapi itu sangat berbeda dari pekerjaan transaksi atau litigasi di BigLaw
      Fokusnya jauh lebih besar pada analisis dan peringkasan teks yang sudah ada, dan teks-teks itu sendiri juga lebih mudah dipakai untuk pelatihan LLM. Misalnya undang-undang, preseden, jurnal hukum, dan buku teks
      Jadi ini kemungkinan adalah pekerjaan hukum yang paling mudah di-LLM-kan, tetapi sekaligus mungkin yang nilainya paling rendah. Profesor hukum tentu tidak dibayar setinggi pengacara BigLaw. Pendekatan ini tidak akan langsung bisa diskalakan begitu saja. Bukan berarti AI tidak bisa menembus BigLaw, tetapi itu akan menjadi tantangan yang berbeda
  • Saya paham mengapa diskusi atas tulisan ini mengalir ke arah itu, tetapi studi itu sendiri berfokus pada kemungkinan LLM berfungsi sebagai tutor mahasiswa hukum. Menarik memang memperluasnya ke apakah LLM akan menggantikan pengacara, tetapi itu bukan yang dibahas studi tersebut
    Jika kerangkanya adalah memakai LLM sebagai tutor hukum dan menurunkan biaya pendidikan hukum, itu tampak seperti hasil yang positif secara sosial. Lebih jauh, jika sistem LLM mutakhir dapat mengakses bahan rujukan hukum, secara intuitif masuk akal bahwa ia bisa menjawab pertanyaan yang diajukan mahasiswa secara komprehensif dan memberi petunjuk atau rujukan langsung ke materi ajar atau sumber asli. Hasil studi juga tampaknya mengarah ke sana
    Para penulis secara eksplisit dan sengaja menekankan bahwa banyak pertanyaan hukum tidak memiliki jawaban komputasional yang terpisah begitu saja, melainkan membutuhkan kontekstualisasi. Hasil studi ini menunjukkan bahwa sistem berbasis LLM dapat, melalui “pembuatan algoritme pencocokan optimal probabilistik” dari model bahasa modern, mengontekstualisasikan pertanyaan mahasiswa secara tepat, menjelaskan trade-off atau kompleksitas yang melekat pada pertanyaan itu, lalu—yang terpenting—menjelaskan kompleksitas tersebut kepada mahasiswa dengan standar profesional pendidik hukum
    Secara praktis, saya berharap hasil ini bisa memberi sedikit kepercayaan diri kepada pembaca HN bahwa ketika mereka melempar pertanyaan hukum ke LLM, mereka dapat mengharapkan jawaban yang menjelaskan kompleksitas hukum yang relevan dengan pertanyaan itu. Itu kabar baik, dan jika waktu memungkinkan, kemungkinan ini adalah pekerjaan persiapan minimal yang sebaiknya kita lakukan sebelum benar-benar berkonsultasi dengan pengacara
    Di sisi lain, saya tidak menganggap studi ini memberi sinyal bahwa LLM sudah siap untuk benar-benar memberikan nasihat hukum secara langsung. Ini mirip dengan bagaimana buku teks hukum tidak menggantikan nasihat hukum, atau lebih tepatnya seperti kebetulan menemukan kasus hukum yang kira-kira mirip dengan situasi saya tidak berarti hasilnya akan sama

    • Ini tampaknya menunjukkan bahwa LLM cukup pintar untuk dimanfaatkan dalam konteks pendidikan hukum
  • Figure I.1 mengatakan banyak hal. Panjang jawaban muncul sebagai prediktor terkuat untuk tingkat kemenangan. Ini kemungkinan akibat cacat metodologis dalam studi tersebut
    Para profesor diminta menjawab secara ringkas. Kurang lebih seperti, “harap ditulis singkat. Tiap jawaban diperkirakan tidak akan memakan waktu lebih dari 3 menit,” jadi kemungkinan mereka terdorong untuk menulis pendek. Dalam kondisi yang sejak awal menuntut keringkasan, para profesor mungkin tidak mengerahkan banyak usaha pada jawaban tertulis mereka. Ini bukan headline yang dibayangkan para penulis

  • Mengejutkan Stanford Law menyetujui judul siaran pers yang seberlebihan ini. Seharusnya sesuatu seperti, “Untuk pertanyaan kontrak umum tahun pertama, profesor hukum lebih menyukai jawaban buatan AI daripada jawaban buatan profesor”

    • Judul yang direvisi itu akurat. Aneh rasanya mendengar para akademisi memakai klaim yang dibesar-besarkan seperti CEO lembaga riset papan atas yang sedang mencoba mengerek valuasi perusahaan
  • Dugaan terbaik saya adalah Gemini dilatih pada buku teks yang ingin diuji oleh pertanyaan-pertanyaan itu, sehingga mungkin lebih kuat dalam mengingat secara eksplisit pertanyaan tersebut atau pertanyaan yang terkait
    Dari yang tertulis dalam metodologi makalah, ini tampaknya mata kuliah pengantar yang cukup terbatas

    • Selain itu, studi ini dilakukan di institut HAI Stanford dan tampaknya memiliki bias yang jelas, dan anehnya makalah ini tidak menyertakan pernyataan konflik kepentingan
      Edit: Saya baru sadar bahwa Google adalah donor utama HAI. Kalau begitu, studi ini setidaknya sebagian didanai oleh Google. Mungkin itu juga sebabnya para penulis tidak bisa menyatakan tidak ada konflik kepentingan
  • Bidang hukum pada dasarnya sangat cocok untuk model bahasa AI. Pada dasarnya semuanya dibangun di atas teks yang saling terhubung
    Saya kira gelombang PHK di sini bisa lebih besar daripada di bidang TI. Hanya saja kemungkinan akan ada lobi yang lebih kuat, dan mereka akan mencoba sangat melebih-lebihkan nilai pekerjaan mereka untuk menghalangi pendatang dari luar

    • Sebagai pengacara, saya rasa intuisi tentang LLM itu benar. Hukum adalah permainan bahasa yang memang dikuasai LLM
      Tetapi gelombang itu sudah dimulai, dan skalanya akan sangat besar. Klien korporat menuntut penggunaan AI. Mereka tidak mau membayar associate menghabiskan berjam-jam menulis draf lalu partner meninjaunya. Mereka ingin partner terbaik memakai AI dan hanya melakukan penyuntingan akhir
  • Hal yang tidak bisa dilakukan LLM adalah menjelaskan mengapa ia mengatakan sesuatu saat menghadapi pemeriksaan silang. Ia hanya akan menghalusinasikan penjelasan terbaik tentang mengapa seseorang mungkin mengatakan apa yang telah ia katakan, dan juga bisa memberikan alasan yang terdengar masuk akal mengapa orang lain mungkin mengatakan hal yang berbeda
    Pertanyaan seperti “mengapa mengatakan ini dan bukan itu?” tidak memaksa dasar dari ucapan itu menjadi eksplisit, melainkan hanya membuat pernyataan baru yang lebih kompleks

    • Benar untuk kasus sederhana
      Namun ada teknik penyusunan konteks LLM yang mengikat hasil akhir ke struktur data. Struktur data itu mempertahankan susunan klaim yang mendukung kesimpulan dalam teks yang dihasilkan. Mengorganisasi logika di dalam bahasa adalah ranah yang kaya, jadi ada berbagai pola, dan yang paling saya suka adalah sesuatu yang disebut Claim Dependency Graph, yang memodelkan hubungan antar klaim atomik sebagai sisi graf
      Ada banyak operasi yang bisa dijalankan di atas struktur seperti ini, dan “rekonstruksikan bagaimana sampai pada kesimpulan ini” jelas salah satunya
    • Manusia punya motivasi nyata yang membentuk kerangka dari pikiran yang diungkapkan. LLM justru akan membuat pikiran yang baru dihasilkan sebagai respons terhadap alur pertanyaan
    • Hal yang sama mungkin juga berlaku untuk manusia. Dalam percakapan, kita sering menjawab secara naluriah, lalu hanya menyusun rasionalisasi secara mundur ketika diminta
      Bahkan untuk pikiran yang lebih matang, kalau beruntung kita mungkin masih bisa mengingat “jejak penalaran”, tetapi refleksi diri kita memang sebatas itu. Kecuali Anda seorang ilmuwan saraf, kita bahkan tidak tahu berapa banyak neuron yang kita miliki, apalagi bagaimana semuanya menghasilkan pikiran
      Penalaran yang termotivasi makin mengganggu refleksi diri, dan ketika ditambah ketidakjujuran serta kesalahan komunikasi, bahkan informasi terbatas yang tersisa pun tidak tersampaikan dengan baik satu sama lain
      Riset interpretabilitas model telah banyak berkembang. Secara kontroversial, orang bahkan bisa berargumen bahwa kita sudah lebih mampu menjelaskan pengambilan keputusan AI daripada otak manusia
    • LLM berhalusinasi karena manusia juga berhalusinasi
      Meminta LLM memberi anotasi sumber, seperti halnya pada manusia, dapat sangat meningkatkan pencocokan pola yang meniru logika dari dekat
      Saya paham apa yang dimaksud dengan pertanyaan “mengapa mengatakan ini dan bukan itu”. Hanya saja, saya juga pernah melihat cara-cara lain untuk bertanya agar LLM tidak bereaksi berlebihan ke arah sebaliknya