- Selama 5 tahun, berbagai perusahaan secara kompetitif memperbesar ukuran context window dari 2K hingga 2M
- Namun, banyak orang menyoroti bahwa ukuran context window yang tercantum dan ukuran yang benar-benar bisa dimanfaatkan pada model itu berbeda
- Saat membandingkan performa nyata model-model utama seperti Gemini 2.5 Pro, GPT-5, Claude, Qwen, Llama, banyak pengalaman menunjukkan hasil yang cukup berbeda dari yang dipromosikan
- Muncul pertentangan antara pandangan skeptis bahwa “context besar memang bermakna, tetapi dalam praktiknya hanya benar-benar bekerja dengan baik di kisaran 4–8k” dan pengalaman positif bahwa “puluhan hingga ratusan ribu token masih bisa dipakai dalam penggunaan nyata”
Poin utama
-
1. Ukuran context yang benar-benar bisa dimanfaatkan
- Linimasa penggunaan nyata adalah 1k→2k→4k→8k→8k→8k→32k→40k, dengan hanya Gemini 2.5 Pro yang bisa mencapai 80k
- Hingga kini, rentang penggunaan praktis masih hanya 4–8k
- “Ukuran berlabel itu tidak bermakna, yang penting adalah panjang context yang benar-benar bisa dipakai”
- Diakui ada kesenjangan antara ukuran yang diumumkan dan ukuran yang benar-benar bisa digunakan
-
2. Performa Gemini
- Gemini 2.5 Pro stabil hingga 250k, masih dapat digunakan pada 500k, dan pada 800k tetap memberi respons tetapi akurasinya menurun
- Penurunannya sangat lambat hingga 200k, dan setelah itu pun Gemini tetap yang paling unggul
- Gemini tidak memakai perluasan RoPE, melainkan arsitektur khusus seperti sequence sharding, dan sebagian layer menjalankan dense attention pada seluruh token
-
3. Evaluasi GPT-5
- GPT-5-thinking bekerja dengan baik bahkan di atas 200k
- Sangat presisi hingga 100k, tetapi performanya menurun lebih cepat daripada Gemini
-
4. Evaluasi Claude
- Ada pendapat umum bahwa Claude lemah dalam mempertahankan context besar
- Sering salah mengingat detail, urutan kejadian, nama metode, atau berhalusinasi
- Claude Sonnet 4 bahkan bermasalah dengan memori pada 4k, dan kalah dari Qwen 32b
- “Claude benar-benar buruk, saya beralih ke Qwen”
-
5. Qwen, Mistral, Gemma, dan lainnya
- Mistral Large dan Gemma3 27B terlihat cukup baik pada 32k
- Gemma3 dinilai termasuk yang terburuk, dan benchmark Fiction.live direkomendasikan sebagai rujukan
-
6. Seri Llama
- Llama 4 Scout mengklaim mendukung 10 juta token
- Rentang penggunaan nyatanya jauh lebih kecil. Dalam uji context 0.5M, model itu hanya merangkum dokumen terakhir → juga tidak cocok untuk codebase besar
-
7. Pengalaman rinci per model
- “Koherensi (coherence) ≠ kegunaan nyata”, bahkan Gemini 2.5 Pro kesulitan melacak context saat merangkum novel 10–20k
- Gemini 1.5 Pro dinilai lebih lemah di aspek lain, tetapi lebih baik daripada 2.5 Pro dalam memahami context panjang
- Tool coding berbasis agen memiliki system prompt di atas 20k, sehingga klaim bahwa hanya 4–8k yang bisa dipakai adalah keliru. Namun, context awal tetap yang paling stabil
Lainnya
- Berbagi tool/resource:
- Tool pembuat grafik animasi: Remotion
- Materi terkait penurunan performa: LoCoDiff-bench
Kesimpulan
- Kesepakatan umum: pada setiap model, “spesifikasi resmi” dan “performa penggunaan nyata” berbeda jauh
- Gemini: secara umum dinilai paling stabil dan kuat bahkan pada context berukuran besar
- GPT-5: unggul di ukuran menengah, tetapi titik penurunan performanya datang lebih cepat daripada Gemini
- Claude: mendapat penilaian terendah untuk pemanfaatan context panjang
- Llama/Gemma: kegunaan nyatanya kurang memadai dibanding spesifikasi dukungannya
3 komentar
Sejujurnya, saya tidak terlalu merasakan perbedaan yang benar-benar mencolok seperti yang disebutkan di benchmark.
Kalau dari pengalaman saya, rasanya cuma di level “sedikit lebih baik”, bukan berbeda jauh.
Malah karena performa model-model sekarang makin merata ke atas, rasanya orang jadi membandingkannya dengan lebih ketat juga haha
Pada akhirnya, yang penting tetap tergantung dipakai dalam situasi seperti apa.
Gemini punya context window yang sangat besar, jadi sepertinya cocok untuk codebase berukuran besar atau menjaga konteks yang panjang, sedangkan Claude unggul dalam akurasi coding yang stabil, jadi tinggal dipilih sesuai kebutuhan penggunaannya.
Selain angka benchmark AI, adakah model yang dalam pengalaman penggunaan nyata memiliki performa coding yang lebih baik daripada Claude?
Claude memang punya kekurangan pada konteks yang panjang, tetapi sepertinya paling jago untuk coding.