CASK adalah makalah yang mengusulkan pendekatan struktural (berbasis peran),
bukan metode pruning berbasis token importance yang sudah ada,
untuk mengatasi masalah pertumbuhan KV cache yang terjadi selama proses inferensi LLM.
Riset ini juga patut diperhatikan karena dihasilkan hanya dalam 5 hari dan merupakan hasil dari 2 peneliti independen tanpa dosen pembimbing.
📌 Definisi masalah
Saat inferensi chain-of-thought yang panjang, KV cache meningkat dengan cepat sehingga:
- penggunaan memori melonjak
- latency inferensi meningkat
- performa reasoning jangka panjang menurun
Metode yang ada:
- berbasis scoring token importance
- melakukan eviction pada token dengan skor rendah
❌ Keterbatasan metode yang ada
Hasil eksperimen pada makalah ini menunjukkan:
- meskipun importance scoring ditingkatkan secara cermat
→ perubahan pada himpunan token yang benar-benar dipertahankan tetap terbatas
Dengan kata lain,
- hanya memperbaiki strategi eviction
memiliki batas dalam peningkatan performa dan efisiensi
🔥 Ide inti
CASK memisahkan token bukan berdasarkan tingkat kepentingan, tetapi berdasarkan peran.
Core
- berkontribusi langsung pada pembuatan output akhir
- merupakan status inti dari reasoning
- selalu dipertahankan
Scratch
- status yang dihasilkan selama perhitungan menengah dan proses eksplorasi
- dapat mencakup informasi yang redundan dan tidak perlu
- menjadi target kompresi dan penggabungan
⚙️ Cara kerja
Prefix Phase
- bagian input (prompt)
- melakukan sebagian KV eviction
Decode Phase
- bagian saat inferensi berlangsung
- hanya menerapkan kompresi selektif pada area Scratch
👉 Perbedaannya dibanding metode lama:
- dari penghapusan sederhana → preservasi selektif + kompresi struktural
📊 Performa
Berdasarkan hasil makalah:
-
dibanding teknik kompresi KV yang ada
→ penghematan memori tambahan hingga 25% -
pada KV cache budget yang sama
→ mempertahankan akurasi yang lebih tinggi -
pada beberapa bagian
→ mencapai performa lebih tinggi dengan KV cache yang lebih sedikit
Contoh:
- CASK (KV 384) > metode lama (KV 512)
👉 Berhasil mencapai penurunan penggunaan memori sekaligus peningkatan performa
📌 Karakteristik teknis
- token-level pruning → structure-aware compression
- berfokus pada eviction → strategi preserve + reuse
- memperkuat penggunaan ulang informasi selama proses reasoning
📌 Makna
CASK menggeser optimasi KV cache dari
- “seberapa banyak yang akan dibuang” menjadi
- “apa yang harus dipertahankan”
sebagai pendekatan utamanya.
🚀 Ringkasan
- penghematan tambahan KV cache hingga 25%
- memperoleh performa inferensi yang sama atau lebih tinggi
- mengusulkan metode pengelolaan KV berbasis struktur
2 komentar
Jika Anda memanfaatkan AI dalam penulisan makalah, saya penasaran bagaimana Anda menggunakannya. Bagian yang menyebutkan bahwa prosesnya berjalan dari ideasi hingga eksperimen hanya dalam 5 hari sangat mengesankan, jadi saya bertanya.
Karena tidak bisa diedit, saya tambahkan di sini!
Tautan paper
https://arxiv.org/abs/2604.10900
Tautan GitHub
https://github.com/Skyline-23/CASK