> "Kalau bertanya dengan marah, apakah AI akan menjawab lebih baik?" Hasil eksperimen tim peneliti Harvard pada 6 benchmark menunjukkan bahwa ekspresi emosional hampir tidak memengaruhi kinerja LLM. Namun, temuan kuncinya adalah memilih emosi secara adaptif untuk tiap pertanyaan dapat menghasilkan peningkatan kinerja yang konsisten.
Gambaran penelitian
- Sumber: arXiv:2604.02236v1 (2 April 2026)
- Penulis: Minda Zhao, Yutong Yang dkk. (riset gabungan Harvard University dan Bryn Mawr College)
- Pertanyaan inti: Apakah kinerja LLM berubah jika prompt memuat ekspresi emosional?
Ringkasan temuan utama
Nada emosional tersebar luas dalam komunikasi manusia, tetapi dampaknya terhadap perilaku LLM masih belum jelas. Penelitian ini mengungkap tiga hal berikut.
① Prefix emosi tetap hampir tidak efektif
Pada sebagian besar kombinasi task-model, framing emosional tidak secara berarti meningkatkan atau menurunkan kinerja dibanding baseline netral. Prompting emosi statis tidak bekerja sebagai metode peningkatan kinerja yang universal.
② Menaikkan intensitas emosi pun hasilnya serupa
Bahkan ketika intensitas dinaikkan seperti "saya sangat marah" atau "saya sangat ketakutan", akurasi hanya berubah sedikit di berbagai tingkat intensitas, dan ekspresi yang lebih kuat tidak secara konsisten menyebabkan penurunan kinerja.
③ Pemilihan emosi adaptif (EmotionRL) memang efektif
Satu emosi tetap terlalu kasar sehingga tidak andal, tetapi kebijakan yang dikondisikan pada input dapat mendorong peningkatan kinerja yang lebih konsisten.
Desain eksperimen
6 emosi yang diuji
Berdasarkan teori emosi dasar Plutchik, penelitian ini menggunakan 6 emosi: bahagia, sedih, takut, marah, jijik, terkejut.
6 benchmark evaluasi
| Benchmark | Kemampuan yang diukur |
|---|---|
| GSM8K | Penalaran matematis |
| BIG-Bench Hard | Penalaran umum |
| MedQA | Pengetahuan medis profesional |
| BoolQ | Pemahaman bacaan |
| OpenBookQA | Penalaran akal sehat |
| SocialIQA | Penalaran sosial |
Model yang digunakan
Tiga model open source, yaitu Qwen3-14B, Llama 3.3-70B, dan DeepSeek-V3.2, dievaluasi dalam lingkungan penalaran zero-shot tanpa fine-tuning.
Hasil detail
Perbedaan sensitivitas emosi per task
GSM8K dan MedQA-US tetap sangat dekat dengan baseline di seluruh emosi, yang menunjukkan bahwa prefix emosi pendek hanya memberi pengaruh terbatas pada penalaran yang sangat terikat aturan dan prediksi multiple-choice spesifik domain.
Penyimpangan paling menonjol dari stabilitas keseluruhan muncul pada SocialIQA. Di sini, varians antar model dan emosi terlihat lebih besar, dan arah efeknya pun tidak konsisten. Ini menunjukkan bahwa konteks emosional berinteraksi paling kuat pada task yang menuntut penalaran interpersonal.
Emosi yang ditulis manusia vs. emosi yang dihasilkan LLM
Perbandingan antara prefix yang ditulis manusia dan prefix yang dihasilkan LLM menunjukkan bahwa kedua sumber memberikan akurasi yang hampir sama di seluruh kondisi, tanpa ada salah satu yang secara konsisten lebih unggul.
EmotionRL: framework pemilihan emosi adaptif
Untuk setiap pertanyaan input, agen memilih satu emosi dari himpunan {marah, jijik, takut, bahagia, sedih, terkejut}, lalu menambahkan ekspresi emosi tersebut di depan prompt asli sebelum mengirimkannya ke LLM yang dibekukan.
Struktur intinya terdiri dari dua tahap.
- Pelatihan offline: untuk setiap pertanyaan, keenam emosi diuji seluruhnya untuk membangun vektor reward, lalu dilatih jaringan kebijakan MLP ringan.
- Inferensi online: saat input baru masuk, kebijakan terlatih memilih emosi, lalu hanya memanggil LLM satu kali.
Efek rata-rata yang lemah dari prompt emosi tetap bukan berarti framing emosi tidak memiliki sinyal yang berguna. EmotionRL secara konsisten menyamai atau melampaui baseline emosi statis rata-rata di lima task.
Kesimpulan dan implikasi
Eksperimen ini mendukung pandangan yang lebih konservatif terhadap prompting emosi dibanding beberapa contoh positif terpisah yang pernah disiratkan. Pada benchmark standar berbasis akurasi, prefix emosi tetap pada umumnya terlalu lemah dan terlalu heterogen untuk menjadi sarana intervensi kinerja yang andal.
Tim peneliti mengusulkan agar prompting emosi didefinisikan ulang bukan sebagai "template universal", melainkan sebagai "masalah routing adaptif".
Keterbatasan
Penelitian ini berfokus pada prefix pendek, prompting single-turn, dan benchmark yang berpusat pada akurasi. Pada evaluasi seperti interaksi multi-turn, generasi terbuka, atau percakapan sensitif terhadap keamanan—di mana kalibrasi, gaya, dan empati sama pentingnya dengan akurasi—dampaknya bisa lebih besar atau berbeda secara kualitatif.
Teks asli: "Do Emotions in Prompts Matter? Effects of Emotional Framing on Large Language Models" — arXiv:2604.02236v1
1 komentar
Lho, jadi selama ini marah-marah ternyata sia-sia...?? Padahal kalau pakai makian rasanya hasilnya jadi keren banget