Mengapa konteks panjang gagal

(dbreunig.com)

3 poin oleh GN⁺ 2025-07-06 | Belum ada komentar. | Bagikan ke WhatsApp

Di model bahasa besar terbaru, jendela konteks panjang yang mendukung hingga 1 juta token mulai diperkenalkan, sehingga memunculkan ekspektasi akan lonjakan besar pada performa agen
Namun dalam praktiknya, konteks panjang tidak menghasilkan jawaban yang lebih baik, bahkan justru memicu kegagalan sistem akibat keracunan konteks, distraksi, kebingungan, dan benturan
Keracunan konteks (poisoning), distraksi konteks (distraction), kebingungan konteks (confusion), dan benturan konteks (clash) adalah masalah yang paling representatif
Masalah-masalah ini berdampak lebih besar pada agen, terutama dalam alur yang kompleks seperti banyak sumber informasi, koneksi alat, dan penalaran multilangkah
Tulisan berikutnya akan membahas solusi yang praktis dan strategi untuk menghindarinya

Pentingnya manajemen konteks

Model frontier besar terbaru menyediakan jendela konteks panjang yang mendukung hingga 1 juta token
Banyak orang berharap bahwa memasukkan semua alat, dokumen, dan instruksi ke dalam jendela besar ini tidak akan menimbulkan masalah
Namun pada kenyataannya, kelebihan beban konteks menyebabkan berbagai kegagalan, dan menjadi persoalan yang sangat serius terutama pada aplikasi berbasis agen

Keracunan konteks adalah fenomena ketika halusinasi (hallucination) atau kesalahan masuk ke dalam konteks lalu terus dirujuk berulang kali
Laporan teknis Gemini 2.5 dari Deep Mind menjelaskan kasus ketika status permainan yang salah tetap tersisa di bagian tujuan atau ringkasan selama permainan berlangsung, sehingga agen berulang kali mengambil tindakan keliru dengan strategi yang tidak bermakna dan tujuan yang mustahil
Konteks yang sudah tercemar seperti ini dapat mengaburkan penilaian agen, baik sementara maupun dalam jangka panjang

Distraksi konteks adalah kondisi ketika konteks menjadi terlalu panjang sehingga model terlalu fokus pada konteks dibandingkan hal-hal yang dipelajari saat pelatihan
Bahkan pada jendela 1M+ token milik Gemini 2.5 Pro, ketika konteks melampaui 100.000 token, model dalam praktiknya hanya mengulang riwayat sebelumnya dan kesulitan membuat perencanaan kreatif
Riset Databricks juga mengonfirmasi bahwa pada Llama 3.1 405b, akurasi sudah turun tajam di 32.000 token
Ini menunjukkan bahwa jendela yang sangat besar secara realistis hanya berguna untuk summarization dan retrieval fakta

Jika terlalu banyak tool atau definisi dimasukkan ke konteks, model akan menghasilkan respons berkualitas rendah seperti pemanggilan alat yang tidak perlu atau tidak sesuai
Menurut Function-Calling Leaderboard dari Berkeley, performa semua model menurun ketika lebih banyak alat disediakan, dan pemanggilan yang tidak perlu sering terjadi
Dalam makalah benchmark GeoEngine, model Llama 3.1 8b gagal ketika diberi 46 tool, tetapi berhasil saat hanya diberi 19 tool
Informasi yang masuk ke dalam konteks dipersepsikan model sebagai informasi yang wajib dipertimbangkan, sehingga noise yang tidak perlu dapat menimbulkan masalah

Benturan konteks adalah keadaan ketika ada isi yang saling bertentangan atau berkonflik di antara informasi yang dikumpulkan secara multilangkah atau di antara penjelasan tool
Riset Microsoft dan Salesforce menunjukkan bahwa fenomena ini dalam percakapan multi-turn menyebabkan penurunan performa rata-rata 39%
Hal ini terjadi karena asumsi yang salah terbentuk pada respons awal, lalu struktur berikutnya terlalu bergantung pada jawaban tersebut
Risiko benturan meningkat saat terhubung dengan alat eksternal seperti MCP

Kemunculan konteks 1 juta token sempat dianggap sebagai inovasi, tetapi pada praktiknya justru meningkatkan jenis error baru seperti keracunan, distraksi, kebingungan, dan benturan
Masalah-masalah ini sangat fatal terutama bagi sistem agen yang menumpuk pengumpulan banyak informasi, rangkaian alat bertahap, dan riwayat percakapan panjang
Sebagai solusi, berbagai strategi seperti dynamic tool loading dan isolasi konteks dapat diajukan, dan akan dibahas secara lebih konkret dalam tulisan lanjutan

Tulisan berikutnya: “Cara memperbaiki konteks Anda”