- Model bahasa besar (LLM) menunjukkan penurunan kinerja dan berkurangnya reliabilitas dalam percakapan multi-turn
- Dibandingkan single-turn, pada situasi multi-turn secara eksperimental terkonfirmasi terjadi penurunan kinerja rata-rata 39%
- Faktor utamanya adalah sedikit penurunan kapabilitas dan penurunan reliabilitas yang sangat besar, yaitu kurangnya konsistensi hasil
- LLM cenderung membuat asumsi yang salah di tahap awal, atau terlalu cepat mencoba jawaban akhir
- Akibatnya, jika LLM melakukan kesalahan di awal percakapan, ditemukan fenomena tidak bisa pulih dan kehilangan arah percakapan
ABSTRACT
- Model bahasa besar (LLM) sebagai antarmuka percakapan memiliki potensi untuk membantu mendefinisikan, menjelajahi, dan memperbaiki kebutuhan pengguna secara bertahap melalui percakapan multi-turn, bahkan ketika pengguna tidak dapat menyatakan kebutuhannya secara lengkap
- Namun, meskipun sebagian besar evaluasi LLM berfokus hanya pada lingkungan instruksi lengkap single-turn, analisis log percakapan nyata menunjukkan fenomena underspecification sering terjadi
- Dalam penelitian ini, performa LLM dibandingkan dalam skala besar melalui simulasi pada lingkungan single-turn dan multi-turn (underspecified)
- Hasilnya, pada 15 LLM utama semuanya ditemukan penurunan performa rata-rata 39% dalam percakapan multi-turn, yang dianalisis sebagai kombinasi sedikit penurunan kapabilitas dan penurunan reliabilitas yang tajam
- Teramati bahwa ketika LLM memilih jalur yang salah di awal percakapan, setelah itu ia tidak dapat pulih dan kehilangan arah sambil terus tersesat
Introduction
- LLM modern (misalnya ChatGPT, Gemini, Claude, dll.) adalah antarmuka yang mendukung percakapan multi-turn
- Walaupun pengguna tidak menjelaskan seluruh kebutuhannya dengan jelas sejak awal, kebutuhan dapat dipertegas secara bertahap lewat tanya jawab berulang (underspecified → refined)
- Di dunia nyata, banyak pengguna memberikan kebutuhan yang tidak jelas di awal percakapan, tetapi sebagian besar evaluasi masih dilakukan hanya dalam lingkungan single-turn dengan spesifikasi lengkap
- Beberapa penelitian sebelumnya mencoba evaluasi multi-turn, tetapi sering memperlakukan setiap turn percakapan sebagai episode terpisah, sehingga dampak ketidakjelasan yang umum dalam percakapan manusia nyata cenderung diremehkan
- Untuk menjembatani kesenjangan ini, penelitian ini mengusulkan lingkungan sharded simulation (informasi dipecah menjadi beberapa bagian dan hanya satu bagian diungkapkan pada tiap turn) untuk mensimulasikan secara presisi kondisi multi-turn dengan instruksi yang tidak lengkap
Ringkasan hasil utama penelitian
- Saat menerima seluruh instruksi sekaligus dalam single-turn, LLM menunjukkan kinerja 90%, tetapi pada instruksi multi-turn yang underspecified turun menjadi 65% (rata-rata turun 25 poin)
- Fenomena ini muncul hanya setelah dua turn percakapan, dan diamati secara konsisten pada semua LLM, baik model terbuka maupun tertutup, besar maupun kecil
- Analisis penyebab penurunan kinerja menunjukkan dua faktor: (1) penurunan kapabilitas (aptitude loss) dan (2) lonjakan ketidakreliabelan (unreliability)
- Pada single-turn, model dengan kapabilitas tinggi juga cenderung memiliki reliabilitas tinggi, tetapi pada multi-turn reliabilitas rendah muncul terlepas dari kapabilitasnya
- Artinya, jika LLM mulai masuk ke arah yang salah selama percakapan multi-turn, ia tidak dapat pulih — fenomena ini diberi nama “lost in conversation”
- Penyebab utama
- Respons yang bertele-tele dan upaya terlalu cepat memberikan jawaban final
- Asumsi yang salah terhadap informasi yang belum jelas
- Ketergantungan berlebihan pada percobaan sebelumnya yang salah
- Terdapat kesenjangan besar antara penggunaan LLM di lapangan dan cara evaluasi model dilakukan
- Semakin pemula penggunanya, semakin sering mereka memberi instruksi yang tidak lengkap di awal, sehingga fenomena ini menjadi salah satu penyebab utama sulitnya penerapan di dunia nyata
- Struktur makalah diperkenalkan sebagai berikut: ringkasan penelitian terdahulu, penjelasan lingkungan simulasi, 6 tugas generatif dan metrik evaluasi, eksperimen skala besar pada 15 LLM beserta hasilnya, serta implikasi praktis dan rekomendasi konkret untuk penerapan produk dan operasional
Background and Related Work
- Model bahasa generasi sebelumnya (misalnya BART, GPT-2, T5) memang tidak dapat menangani percakapan multi-turn dengan baik, sehingga dievaluasi terutama dalam format single-turn
- Setelah kemunculan ChatGPT, minat terhadap evaluasi multi-turn meningkat, dan dilakukan evaluasi crowdsourcing seperti MT-bench
- Namun, sebagian besar kerangka evaluasi masih berhenti pada percakapan episodik (setiap turn dievaluasi terpisah), sehingga kesinambungan percakapan tidak jelas yang terjadi di dunia nyata belum dipertimbangkan
- Di dunia nyata, sesuai “prinsip upaya minimum”, manusia sering memberi instruksi yang ambigu (a.k.a. underspecification), dan LLM juga mengalami penurunan performa karena menarik kesimpulan terlalu dini saat informasi kurang dan kurang mampu beradaptasi
- Penelitian ini dirancang untuk menargetkan evaluasi yang lebih dekat dengan lingkungan nyata, di mana ketidakjelasan menjadi faktor inti
Simulating Underspecified, Multi-Turn Conversation
3.1 Sharding Process
- Instruksi dengan spesifikasi lengkap yang asli dipecah menjadi beberapa shard (potongan informasi)
- Contoh: alih-alih memuat semua syarat dalam satu kalimat, pada tiap turn hanya satu informasi (pengaturan situasi, angka, kondisi, dll.) yang diungkapkan
- Shard pertama selalu menjelaskan tujuan tingkat atas dari instruksi, lalu shard berikutnya secara bertahap memberikan informasi tambahan (konteks, kondisi, dll.) di setiap turn
- Proses sharding ini membangun kumpulan data instruksi multi-turn berkualitas tinggi melalui usulan+verifikasi LLM (GPT-4o) dan penyempurnaan manual
- Untuk tiap tugas dibuat 90–120 instruksi yang di-shard (dengan beberapa jam pemeriksaan manual)
3.2 Simulating Sharded Conversations
- Simulasi percakapan terdiri dari 3 peran: LLM yang dievaluasi (assistant), user simulator yang mengetahui seluruh shard, serta sistem klasifikasi dan penilaian respons
- Turn pertama: user simulator hanya menyampaikan shard pertama ke assistant → assistant merespons → strateginya diklasifikasikan (klarifikasi, bertanya, mencoba menjawab, dll.) dan jawaban diekstrak → jawaban dinilai
- Turn berikutnya: hanya satu shard tambahan dari shard yang tersisa diungkapkan lalu diulang / pada setiap turn assistant bebas merespons
- Akhir percakapan: (1) evaluator memutuskan jawaban sudah benar, atau (2) tidak ada shard lagi yang bisa diberikan
- User simulator diimplementasikan dengan LLM (GPT-4o-mini), sehingga mampu memberikan shard secara natural dan melakukan rephrase otomatis
- Dalam seluruh eksperimen, salah klasifikasi dan kesalahan ekstraksi oleh LLM pendukung kurang dari 5%, dan kasus yang merugikan assistant kurang dari 2%
- Assistant dievaluasi dalam keadaan default tanpa informasi khusus tentang lingkungan ini (mirip praktik nyata, di mana informasi skenario tidak diberikan secara terpisah)
3.3 Simulation Types
- FULLY-SPECIFIED (FULL): seluruh instruksi diberikan dalam single-turn, untuk mengevaluasi performa baseline
- SHARDED: hanya satu potongan informasi diungkapkan pada tiap turn, eksperimen inti penelitian ini untuk percakapan multi-turn yang underspecified
- CONCAT: seluruh sharded instruction diberikan sekaligus dalam bentuk bullet point, untuk mengukur hanya kehilangan informasi instruksi
- RECAP: setelah percakapan sharded, semua shard diringkas/diberikan lagi di akhir, sebagai salah satu bentuk intervensi sederhana ala agent
- SNOWBALL: pada tiap turn, shard baru ditambahkan sambil seluruh shard yang sebelumnya sudah diungkap diulang kembali, agar assistant tidak melewatkan informasi penting (eksperimen penguatan memori)
Task and Metric Selection
4.1 Task Selection
- Total 6 tugas: pemrograman (Code), basis data (pembuatan SQL), pemanggilan fungsi API (Actions), matematika (Math), tabel→teks (Data-to-Text), dan ringkasan berbentuk tanya jawab (Summary)
- Contoh: menulis fungsi Python, mengubah bahasa natural menjadi kueri SQL, dll.
- Untuk tiap tugas, 90–120 instruksi dipilih dari benchmark berkualitas tinggi, lalu diverifikasi manual setelah proses sharding
- Keenam tugas tersebut merepresentasikan cakupan pemrograman maupun non-pemrograman, serta mencakup berbagai skenario seperti Summary yang membutuhkan long context
4.2 Metric Selection
- Metrik evaluasi
- Kinerja rata-rata (P): skor rata-rata dari berbagai simulasi (0~100)
- Kapabilitas (A90): nilai hasil 10% simulasi teratas (90th percentile, best-case)
- Reliabilitas (U90_10): selisih skor antara 90% teratas dan 10% terbawah (mengukur konsistensi/variasi hasil)
- Contoh: pada box-plot, bagian paling atas adalah kapabilitas, sedangkan rentang atas-bawah menunjukkan reliabilitas
- Semua 6 tugas dikumpulkan skornya dengan metrik yang konsisten (benar/salah, kemiripan, BLEU, dll.)
- Metode rinci untuk seluruh parameter eksperimen, contoh, sampling, dan kode juga disertakan dalam appendix
Simulation Scale and Parameters
- Total 600 instruction dibangun untuk 6 tugas, lalu diuji dalam skenario FULL/CONCAT/SHARDED
- Untuk 15 LLM (GPT-4, Claude, Gemini, dll.), tiap kombinasi disimulasikan 10 kali, menghasilkan lebih dari 200 ribu data eksperimen
- Semua eksperimen dijalankan dengan temperature 1 (sampling), dan eksperimen tambahan (7.2) juga menganalisis efek temperature
- Dengan data simulasi berskala besar ini, dimungkinkan untuk mengidentifikasi penyebab utama dan pola perilaku serta penurunan performa LLM dalam percakapan multi-turn yang underspecified
Lost in Conversation Experiment
- Selanjutnya, isi utama makalah menjelaskan secara rinci pengaturan eksperimen, hasil per model, analisis penyebab penurunan performa, upaya perbaikan (RECAP/SNOWBALL), serta implikasi praktis dan rekomendasi konkret
1 komentar
Opini Hacker News
Senang melihat makalah yang mengonfirmasi hal yang secara empiris sudah diketahui siapa pun yang benar-benar pernah memakai alat LLM. Konsep “percakapan” itu dibuat oleh antarmuka produk. Menjaga konteks tetap bersih itu penting. Jika konteks sudah terkontaminasi, itu tidak bisa dipulihkan, jadi harus mulai lagi dengan percakapan baru
Ini adalah gejala yang berakar pada kecenderungan overconfidence LLM yang sudah dikenal, ketiadaan refleksi diri, dan ketidakmampuan menyadari kapan perlu meminta lebih banyak informasi. Kalau melihat hasil model penalaran, saat bingung LLM tidak meminta penjelasan tambahan, melainkan terus menebak apa yang dimaksud pengguna. Ini menunjukkan batas realistis dari gagasan menggantikan programmer manusia. Bagian yang benar-benar sulit justru adalah “interaksi dengan stakeholder” untuk mengubah kebutuhan yang ambigu menjadi jelas
Saya sering memakai teknik meminta LLM merangkum diskusi sejauh ini dalam format prompt yang ringkas, lalu saya koreksi/edit sendiri dan memulai percakapan baru. Metode ini cukup efektif, dan saya rasa sebentar lagi akan diotomatisasi
/compactyang merangkum percakapan untuk mengurangi penggunaan tokenSaya merancang sendiri TSCE (Two-Step Contextual Enrichment). Saat dipakai pada 300 tugas di GPT-35-turbo, performanya naik +30pp. Framework-nya terbuka dan bebas dipakai. Saya juga melakukan 300 eksperimen tambahan dengan gpt-4.1. Baseline gagal menghapus em-dash sebanyak 149/300 kali, sedangkan TSCE hanya gagal 18/300 kali. Seluruh data dan skripnya juga saya buka
text.replace("—", "-")?Saya pernah memecahkan masalah dengan dua sistem (LMM + curator otomatis). Satu adalah LLM itu sendiri, satu lagi ‘kurator pikiran’ yang secara dinamis mengganti dan mengelola bagian-bagian konteks. Dasarnya bukan aturan yang tegas, melainkan kemampuan LLM untuk mengisi celah. Ini membantu memecah masalah menjadi unit-unit kecil untuk diproses, lalu hasilnya digabung untuk mencapai tujuan akhir
Aneh rasanya fitur branching/forking belum jadi dasar di alat chat utama. Jawaban memang bisa diedit, tetapi dalam kasus seperti itu banyak konteks lain ikut hilang. Alur kerja saya adalah 1. rencanakan 2. bangun 3. branch 4. ulangi. Saya rasa pemangkasan/branching prompt seharusnya menjadi alat inti dalam pemanfaatan LLM
Masalah muncul ketika antarmuka LLM dirancang dengan fokus pada percakapan single-turn. Kebanyakan pengguna mengharapkan percakapan linear. Karena itu saya membuat bot Telegram experai_bot sebagai UI universal untuk LLM, dengan pendekatan “kalau bukan balasan, berarti percakapan baru”. Untuk menjaga konteks, percakapan memang harus diteruskan dalam struktur pohon balasan. Pengguna nonteknis kesulitan memahami cara ini. Selain itu, model OpenAI (berdasarkan 3.5 dan 4o) makin tidak akurat ketika pertanyaan yang sama diulang, karena spasi atau opsi makin dipersingkat. Hasil relatif lebih terjaga jika system message diminimalkan. Jika perlu, system message bisa ditambahkan sebagai opsi
Alasan utama saya membuat promptdown adalah agar seluruh riwayat chat bisa diedit sepenuhnya pada setiap turn. Struktur append-only pada antarmuka standar membuat hal seperti ini sulit dilakukan
Rasanya bidang LLM saat ini seperti semua orang terus memecahkan masalah yang sama berulang-ulang
LLM benar-benar seperti jin dalam botol. Ia akan menjawab tiga pertanyaan, lalu setelah itu mulai bicara ngawur saja