LLM Sangat Takut pada Situasi Pengecualian
(twitter.com/karpathy)- Andrej Karpathy menyindir efek samping yang muncul dalam proses reinforcement learning (RL) dengan mengatakan bahwa “LLM sangat takut setengah mati (mortally terrified) pada pengecualian (exception)”
- Ia menyoroti bahwa ketika LLM menghadapi situasi pengecualian, model cenderung menghentikan dirinya sendiri atau bereaksi terlalu defensif, sambil menegaskan bahwa pengecualian adalah bagian alami dari proses pengembangan
- Ungkapan “apa yang dilakukan lab pada LLM-LMM malang ini selama RL (what labs are doing to these poor LLMs)” adalah kritik terhadap kenyataan bahwa model dikondisikan untuk takut gagal dalam proses pelatihan
- Karpathy melontarkan lelucon dengan mengusulkan ‘petisi kesejahteraan LLM (LLM welfare petition)’ untuk “meningkatkan reward saat terjadi pengecualian (improved rewards in cases of exceptions)”,
sebagai sindiran terhadap masalah desain reward agar model tidak takut pada pengecualian dan bisa menanganinya - Tweet ini bukan sekadar humor, tetapi ditafsirkan sebagai pesan bahwa RLHF dapat menekan cara berpikir eksploratif dan sikap eksperimental model
I don't know what labs are doing to these poor LLMs during RL but they are mortally terrified of exceptions, in any infinitesimally likely case. Exceptions are a normal part of life and healthy dev process. Sign my LLM welfare petition for improved rewards in cases of exceptions.
1 komentar
Komentar Hacker News
https://github.com/EnterpriseQualityCoding/FizzBuzzEnterpriseEdition
Namun di sisi lain, saya juga berpikir programmer manusia biasa sebenarnya memang perlu menulis lebih banyak blok try/catch, karena cukup sering ada situasi di mana exception yang terjadi di satu area, betapapun jarangnya, tidak seharusnya menghentikan seluruh operasi, tentu sebaliknya ada juga saat di mana memang harus berhenti, jadi semuanya tergantung konteks