3 poin oleh darjeeling 15 hari lalu | 1 komentar | Bagikan ke WhatsApp

> "Kalau bertanya dengan marah, apakah AI akan menjawab lebih baik?" Hasil eksperimen tim peneliti Harvard pada 6 benchmark menunjukkan bahwa ekspresi emosional hampir tidak memengaruhi kinerja LLM. Namun, temuan kuncinya adalah memilih emosi secara adaptif untuk tiap pertanyaan dapat menghasilkan peningkatan kinerja yang konsisten.


Gambaran penelitian

  • Sumber: arXiv:2604.02236v1 (2 April 2026)
  • Penulis: Minda Zhao, Yutong Yang dkk. (riset gabungan Harvard University dan Bryn Mawr College)
  • Pertanyaan inti: Apakah kinerja LLM berubah jika prompt memuat ekspresi emosional?

Ringkasan temuan utama

Nada emosional tersebar luas dalam komunikasi manusia, tetapi dampaknya terhadap perilaku LLM masih belum jelas. Penelitian ini mengungkap tiga hal berikut.

① Prefix emosi tetap hampir tidak efektif
Pada sebagian besar kombinasi task-model, framing emosional tidak secara berarti meningkatkan atau menurunkan kinerja dibanding baseline netral. Prompting emosi statis tidak bekerja sebagai metode peningkatan kinerja yang universal.

② Menaikkan intensitas emosi pun hasilnya serupa
Bahkan ketika intensitas dinaikkan seperti "saya sangat marah" atau "saya sangat ketakutan", akurasi hanya berubah sedikit di berbagai tingkat intensitas, dan ekspresi yang lebih kuat tidak secara konsisten menyebabkan penurunan kinerja.

③ Pemilihan emosi adaptif (EmotionRL) memang efektif
Satu emosi tetap terlalu kasar sehingga tidak andal, tetapi kebijakan yang dikondisikan pada input dapat mendorong peningkatan kinerja yang lebih konsisten.


Desain eksperimen

6 emosi yang diuji

Berdasarkan teori emosi dasar Plutchik, penelitian ini menggunakan 6 emosi: bahagia, sedih, takut, marah, jijik, terkejut.

6 benchmark evaluasi

Benchmark Kemampuan yang diukur
GSM8K Penalaran matematis
BIG-Bench Hard Penalaran umum
MedQA Pengetahuan medis profesional
BoolQ Pemahaman bacaan
OpenBookQA Penalaran akal sehat
SocialIQA Penalaran sosial

Model yang digunakan

Tiga model open source, yaitu Qwen3-14B, Llama 3.3-70B, dan DeepSeek-V3.2, dievaluasi dalam lingkungan penalaran zero-shot tanpa fine-tuning.


Hasil detail

Perbedaan sensitivitas emosi per task

GSM8K dan MedQA-US tetap sangat dekat dengan baseline di seluruh emosi, yang menunjukkan bahwa prefix emosi pendek hanya memberi pengaruh terbatas pada penalaran yang sangat terikat aturan dan prediksi multiple-choice spesifik domain.

Penyimpangan paling menonjol dari stabilitas keseluruhan muncul pada SocialIQA. Di sini, varians antar model dan emosi terlihat lebih besar, dan arah efeknya pun tidak konsisten. Ini menunjukkan bahwa konteks emosional berinteraksi paling kuat pada task yang menuntut penalaran interpersonal.

Emosi yang ditulis manusia vs. emosi yang dihasilkan LLM

Perbandingan antara prefix yang ditulis manusia dan prefix yang dihasilkan LLM menunjukkan bahwa kedua sumber memberikan akurasi yang hampir sama di seluruh kondisi, tanpa ada salah satu yang secara konsisten lebih unggul.


EmotionRL: framework pemilihan emosi adaptif

Untuk setiap pertanyaan input, agen memilih satu emosi dari himpunan {marah, jijik, takut, bahagia, sedih, terkejut}, lalu menambahkan ekspresi emosi tersebut di depan prompt asli sebelum mengirimkannya ke LLM yang dibekukan.

Struktur intinya terdiri dari dua tahap.

  • Pelatihan offline: untuk setiap pertanyaan, keenam emosi diuji seluruhnya untuk membangun vektor reward, lalu dilatih jaringan kebijakan MLP ringan.
  • Inferensi online: saat input baru masuk, kebijakan terlatih memilih emosi, lalu hanya memanggil LLM satu kali.

Efek rata-rata yang lemah dari prompt emosi tetap bukan berarti framing emosi tidak memiliki sinyal yang berguna. EmotionRL secara konsisten menyamai atau melampaui baseline emosi statis rata-rata di lima task.


Kesimpulan dan implikasi

Eksperimen ini mendukung pandangan yang lebih konservatif terhadap prompting emosi dibanding beberapa contoh positif terpisah yang pernah disiratkan. Pada benchmark standar berbasis akurasi, prefix emosi tetap pada umumnya terlalu lemah dan terlalu heterogen untuk menjadi sarana intervensi kinerja yang andal.

Tim peneliti mengusulkan agar prompting emosi didefinisikan ulang bukan sebagai "template universal", melainkan sebagai "masalah routing adaptif".

Keterbatasan

Penelitian ini berfokus pada prefix pendek, prompting single-turn, dan benchmark yang berpusat pada akurasi. Pada evaluasi seperti interaksi multi-turn, generasi terbuka, atau percakapan sensitif terhadap keamanan—di mana kalibrasi, gaya, dan empati sama pentingnya dengan akurasi—dampaknya bisa lebih besar atau berbeda secara kualitatif.


Teks asli: "Do Emotions in Prompts Matter? Effects of Emotional Framing on Large Language Models" — arXiv:2604.02236v1

1 komentar

 
huiya 15 hari lalu

Lho, jadi selama ini marah-marah ternyata sia-sia...?? Padahal kalau pakai makian rasanya hasilnya jadi keren banget