Mengapa konteks panjang gagal
(dbreunig.com)- Di model bahasa besar terbaru, jendela konteks panjang yang mendukung hingga 1 juta token mulai diperkenalkan, sehingga memunculkan ekspektasi akan lonjakan besar pada performa agen
- Namun dalam praktiknya, konteks panjang tidak menghasilkan jawaban yang lebih baik, bahkan justru memicu kegagalan sistem akibat keracunan konteks, distraksi, kebingungan, dan benturan
- Keracunan konteks (poisoning), distraksi konteks (distraction), kebingungan konteks (confusion), dan benturan konteks (clash) adalah masalah yang paling representatif
- Masalah-masalah ini berdampak lebih besar pada agen, terutama dalam alur yang kompleks seperti banyak sumber informasi, koneksi alat, dan penalaran multilangkah
- Tulisan berikutnya akan membahas solusi yang praktis dan strategi untuk menghindarinya
Pentingnya manajemen konteks
- Model frontier besar terbaru menyediakan jendela konteks panjang yang mendukung hingga 1 juta token
- Banyak orang berharap bahwa memasukkan semua alat, dokumen, dan instruksi ke dalam jendela besar ini tidak akan menimbulkan masalah
- Namun pada kenyataannya, kelebihan beban konteks menyebabkan berbagai kegagalan, dan menjadi persoalan yang sangat serius terutama pada aplikasi berbasis agen
Keracunan konteks (Context Poisoning)
- Keracunan konteks adalah fenomena ketika halusinasi (hallucination) atau kesalahan masuk ke dalam konteks lalu terus dirujuk berulang kali
- Laporan teknis Gemini 2.5 dari Deep Mind menjelaskan kasus ketika status permainan yang salah tetap tersisa di bagian tujuan atau ringkasan selama permainan berlangsung, sehingga agen berulang kali mengambil tindakan keliru dengan strategi yang tidak bermakna dan tujuan yang mustahil
- Konteks yang sudah tercemar seperti ini dapat mengaburkan penilaian agen, baik sementara maupun dalam jangka panjang
Distraksi konteks (Context Distraction)
- Distraksi konteks adalah kondisi ketika konteks menjadi terlalu panjang sehingga model terlalu fokus pada konteks dibandingkan hal-hal yang dipelajari saat pelatihan
- Bahkan pada jendela 1M+ token milik Gemini 2.5 Pro, ketika konteks melampaui 100.000 token, model dalam praktiknya hanya mengulang riwayat sebelumnya dan kesulitan membuat perencanaan kreatif
- Riset Databricks juga mengonfirmasi bahwa pada Llama 3.1 405b, akurasi sudah turun tajam di 32.000 token
- Ini menunjukkan bahwa jendela yang sangat besar secara realistis hanya berguna untuk summarization dan retrieval fakta
Kebingungan konteks (Context Confusion)
- Jika terlalu banyak tool atau definisi dimasukkan ke konteks, model akan menghasilkan respons berkualitas rendah seperti pemanggilan alat yang tidak perlu atau tidak sesuai
- Menurut Function-Calling Leaderboard dari Berkeley, performa semua model menurun ketika lebih banyak alat disediakan, dan pemanggilan yang tidak perlu sering terjadi
- Dalam makalah benchmark GeoEngine, model Llama 3.1 8b gagal ketika diberi 46 tool, tetapi berhasil saat hanya diberi 19 tool
- Informasi yang masuk ke dalam konteks dipersepsikan model sebagai informasi yang wajib dipertimbangkan, sehingga noise yang tidak perlu dapat menimbulkan masalah
Benturan konteks (Context Clash)
- Benturan konteks adalah keadaan ketika ada isi yang saling bertentangan atau berkonflik di antara informasi yang dikumpulkan secara multilangkah atau di antara penjelasan tool
- Riset Microsoft dan Salesforce menunjukkan bahwa fenomena ini dalam percakapan multi-turn menyebabkan penurunan performa rata-rata 39%
- Hal ini terjadi karena asumsi yang salah terbentuk pada respons awal, lalu struktur berikutnya terlalu bergantung pada jawaban tersebut
- Risiko benturan meningkat saat terhubung dengan alat eksternal seperti MCP
Kesimpulan dan prospek
- Kemunculan konteks 1 juta token sempat dianggap sebagai inovasi, tetapi pada praktiknya justru meningkatkan jenis error baru seperti keracunan, distraksi, kebingungan, dan benturan
- Masalah-masalah ini sangat fatal terutama bagi sistem agen yang menumpuk pengumpulan banyak informasi, rangkaian alat bertahap, dan riwayat percakapan panjang
- Sebagai solusi, berbagai strategi seperti dynamic tool loading dan isolasi konteks dapat diajukan, dan akan dibahas secara lebih konkret dalam tulisan lanjutan
Tulisan berikutnya: “Cara memperbaiki konteks Anda”
Belum ada komentar.