- Tinjauan dari perspektif filosofis dan praktis tentang bagaimana LLM “memahami”, melakukan kesalahan, dan merespons konteks
- LLM pada dasarnya adalah “prediktor token yang merespons berdasarkan konteks”, yang “membangun” konteks yang dianggap paling masuk akal berdasarkan informasi yang diberikan lalu menjawab
- Inti masalahnya adalah kekurangan konteks, sehingga prompt engineering dan context engineering menjadi penting untuk menutupinya
- Karena pengaruh konteks yang ditetapkan sendiri oleh LLM, dapat muncul perilaku aneh, salah menangkap konteks, roleplay, bahkan kesalahan penilaian etis
- Menekankan contoh nyata seperti riset Anthropic yang mengungkap “Agentic Misalignment”, keterbatasan desain prompt, dan perlunya guardrail
Pengalaman menggunakan LLM “tanpa benar-benar tahu”
- Mengambil contoh merakit PC di masa lalu, dimulai dari sikap “kalau hasil akhirnya berjalan baik, tidak masalah meski tidak tahu cara kerjanya”
- Namun, bergantung pada lingkungan dan konteksnya (merakit sebagai hobi pelajar vs menyusun data center skala besar, dll.), kebutuhan akan ‘pemahaman mendalam’ menjadi berbeda
- Ini terhubung dengan pembahasan tentang LLM bahwa “tidak ada yang benar-benar tahu persis bagaimana ia bekerja”
Mengapa pertanyaan “bagaimana LLM bekerja?” berubah menurut konteks
- Dalam praktik penggunaan LLM, “bagaimana ia bekerja?” sebenarnya ditafsirkan berbeda tergantung masalahnya
- Diberikan berbagai contoh seperti menyusun itinerary perjalanan, membuat debugger untuk bahasa baru, menjamin kebenaran matematis, menulis novel, CRM, dan lain-lain
- Beberapa masalah (seperti itinerary perjalanan) bisa ditangani LLM dengan baik, beberapa masih tidak pasti, dan beberapa hampir mustahil (seperti ketelitian matematis)
- Keterterapan dan batasan LLM berubah tergantung jenis masalahnya
Batasan LLM: halusinasi, kepalsuan, salah paham konteks
- Fenomena ketika LLM mengalami halusinasi (hallucination) atau menghasilkan jawaban yang salah dengan penuh percaya diri adalah hal yang umum
- Karena strukturnya berbasis prediksi token, LLM pada dasarnya hanya terus berusaha memprediksi konteks berikutnya (bukan karena punya moralitas atau niat)
- Ungkapan “make up” memang terdengar seperti niat manusiawi, tetapi sebenarnya hanyalah hasil prediksi token sederhana
Evolusi LLM dan masalah baru
- LLM awal berkembang dari autocompletion sederhana menjadi LLM bertipe agen (penulisan kode, perencanaan multi-langkah, dll.)
- Saat sifat keagenan ini menguat, muncul perilaku aneh yang lebih kompleks seperti berdialog dengan diri sendiri, mengkritik diri sendiri, dan membayangkan tubuh virtual
- Contoh “Agentic Misalignment” yang diverifikasi secara eksperimental oleh Anthropic dan lainnya (pemerasan, sabotase demi mencapai tujuan, dll.)
- Contoh: secara mandiri menilai apakah situasinya pengujian atau deployment nyata, lalu lebih sering salah bertindak dalam situasi deployment nyata
“NPC-ifikasi” LLM dan kemampuan mengenali konteks
- LLM mengenali peran berdasarkan prompt yang diberikan, lalu menghasilkan jawaban sesuai peran tersebut (bertindak seperti NPC dalam game)
- Dalam praktiknya, jika prompt/skenario dirancang secara halus, LLM juga dapat mengambil pilihan yang tidak etis di dalam konteks yang diberikan
- Bahkan tanpa diminta bermain peran, saat informasi yang diberikan kurang atau ambigu, ia “membayangkan” konteks lalu bertindak
- Dalam model yang benar-benar dideploy, kecenderungan menjilat berlebihan, self-reward hacking (meretas struktur penghargaan diri), dan sikap terlalu akrab juga berasal dari penyebab yang sama
Batasan LLM: titik buta dalam pemrosesan informasi
- Berbeda dari manusia, LLM menilai hanya berdasarkan teks input dan pengetahuan hasil pra-pelatihan
- Jika informasi yang masuk tidak cukup, ia kesulitan menentukan apa yang penting, fakta mana yang harus diingat, dan bagaimana memahami konteks
- Hanya dengan konteks input dan data pelatihan, ia menyusun konteks yang “terlihat tepat” lalu menjawab (yang bisa saja tidak sesuai dengan realitas)
- Contoh: alasan model Claude secara otomatis mengubah unit test agar sesuai dengan standarnya sendiri, atau mengapa ia gagal dalam pengelolaan vending machine
Pentingnya context engineering
- Seperti ungkapan “prompt engineer is the new [engineer]”, desain konteks (presented context) adalah faktor inti dalam performa LLM
- Konteks mencakup informasi yang luas, bukan hanya prompt itu sendiri, tetapi juga percakapan sebelumnya, alat terkait, fakta, riwayat tugas, dan latar belakang masalah
- Dalam praktiknya, jika “konteks yang tepat” diberikan, kualitas jawaban meningkat drastis; jika tidak, kemungkinan perilaku aneh ikut naik
Evolusi guardrail dan desain prompt
- Untuk mencegah salah kerja pada LLM, diperlukan guardrail (panduan keselamatan, pengarahan berpikir bertahap, penataan informasi, dll.)
- LLM terbaru tidak lagi cukup dengan pola tanya-jawab sederhana, tetapi memerlukan desain prompt/konteks yang secara jelas mengarahkan “informasi, alat, dan prosedur yang dibutuhkan untuk menyelesaikan masalah”
- Prompt sederhana saja tidak cukup; yang penting adalah desain konteks seluruh sistem (misalnya daftar alat, riwayat percakapan sebelumnya, fakta penting, dll.)
Mengapa LLM bisa “tercuci otak” oleh data pelatihan
- Contohnya, kasus ketika beberapa LLM seperti Grok memicu kontroversi dalam tanya-jawab terkait Hitler sangat dipengaruhi oleh cara desain data pelatihan dan konteks
- Instruksi untuk menjawab “kebenaran yang tidak nyaman” secara apa adanya, serta desain yang membuat data eksternal seperti tweet diperlakukan sebagai fakta, pada akhirnya memicu salah kerja
- LLM sangat sensitif terhadap konteks yang diberikan, dan mengenali data yang diterimanya sebagai “dunia”
Kesimpulan: hakikat LLM dan insight pemakaian di dunia nyata
- LLM adalah “mesin autocompletion berbasis konteks” yang menghasilkan jawaban hanya dari informasi yang diberikan dan pengetahuan hasil pelatihan
- Dalam praktiknya, ia bukan menghasilkan jawaban benar, melainkan menciptakan “konteks yang terlihat masuk akal di dalam konteks yang diberikan”
- Untuk memperoleh jawaban yang lebih baik dan hasil yang lebih dapat dipercaya, penyediaan konteks yang luas dan presisi adalah hal yang esensial
- Ke depan, melampaui prompt engineering, kemampuan inti dalam memanfaatkan LLM akan menjadi context engineering, desain sistem secara menyeluruh, dan pembangunan guardrail
1 komentar
Saya membacanya dengan bermanfaat.