Penghematan tambahan hingga 25% dibanding teknik kompresi KV yang ada, dengan performa yang justru meningkat — CASK

(arxiv.org)

9 poin oleh skyline23 7 hari lalu | 2 komentar | Bagikan ke WhatsApp

CASK adalah makalah yang mengusulkan pendekatan struktural (berbasis peran),
bukan metode pruning berbasis token importance yang sudah ada,
untuk mengatasi masalah pertumbuhan KV cache yang terjadi selama proses inferensi LLM.

Riset ini juga patut diperhatikan karena dihasilkan hanya dalam 5 hari dan merupakan hasil dari 2 peneliti independen tanpa dosen pembimbing.

📌 Definisi masalah

Saat inferensi chain-of-thought yang panjang, KV cache meningkat dengan cepat sehingga:

penggunaan memori melonjak
latency inferensi meningkat
performa reasoning jangka panjang menurun

Metode yang ada:

berbasis scoring token importance
melakukan eviction pada token dengan skor rendah

❌ Keterbatasan metode yang ada

Hasil eksperimen pada makalah ini menunjukkan:

meskipun importance scoring ditingkatkan secara cermat
→ perubahan pada himpunan token yang benar-benar dipertahankan tetap terbatas

Dengan kata lain,

hanya memperbaiki strategi eviction
memiliki batas dalam peningkatan performa dan efisiensi

🔥 Ide inti

CASK memisahkan token bukan berdasarkan tingkat kepentingan, tetapi berdasarkan peran.

Core

berkontribusi langsung pada pembuatan output akhir
merupakan status inti dari reasoning
selalu dipertahankan

Scratch

status yang dihasilkan selama perhitungan menengah dan proses eksplorasi
dapat mencakup informasi yang redundan dan tidak perlu
menjadi target kompresi dan penggabungan

⚙️ Cara kerja

Prefix Phase

bagian input (prompt)
melakukan sebagian KV eviction

Decode Phase

bagian saat inferensi berlangsung
hanya menerapkan kompresi selektif pada area Scratch

👉 Perbedaannya dibanding metode lama:

dari penghapusan sederhana → preservasi selektif + kompresi struktural

📊 Performa

Berdasarkan hasil makalah:

dibanding teknik kompresi KV yang ada
→ penghematan memori tambahan hingga 25%
pada KV cache budget yang sama
→ mempertahankan akurasi yang lebih tinggi
pada beberapa bagian
→ mencapai performa lebih tinggi dengan KV cache yang lebih sedikit

Contoh:

CASK (KV 384) > metode lama (KV 512)

👉 Berhasil mencapai penurunan penggunaan memori sekaligus peningkatan performa

📌 Karakteristik teknis

token-level pruning → structure-aware compression
berfokus pada eviction → strategi preserve + reuse
memperkuat penggunaan ulang informasi selama proses reasoning

📌 Makna

CASK menggeser optimasi KV cache dari

“seberapa banyak yang akan dibuang” menjadi
“apa yang harus dipertahankan”

sebagai pendekatan utamanya.

🚀 Ringkasan

penghematan tambahan KV cache hingga 25%
memperoleh performa inferensi yang sama atau lebih tinggi
mengusulkan metode pengelolaan KV berbasis struktur

2 komentar

wogns3623 7 hari lalu

Jika Anda memanfaatkan AI dalam penulisan makalah, saya penasaran bagaimana Anda menggunakannya. Bagian yang menyebutkan bahwa prosesnya berjalan dari ideasi hingga eksperimen hanya dalam 5 hari sangat mengesankan, jadi saya bertanya.

skyline23 7 hari lalu

Karena tidak bisa diedit, saya tambahkan di sini!

Tautan paper
https://arxiv.org/abs/2604.10900
Tautan GitHub
https://github.com/Skyline-23/CASK