9 poin oleh skyline23 7 hari lalu | 2 komentar | Bagikan ke WhatsApp

CASK adalah makalah yang mengusulkan pendekatan struktural (berbasis peran),
bukan metode pruning berbasis token importance yang sudah ada,
untuk mengatasi masalah pertumbuhan KV cache yang terjadi selama proses inferensi LLM.

Riset ini juga patut diperhatikan karena dihasilkan hanya dalam 5 hari dan merupakan hasil dari 2 peneliti independen tanpa dosen pembimbing.


📌 Definisi masalah

Saat inferensi chain-of-thought yang panjang, KV cache meningkat dengan cepat sehingga:

  • penggunaan memori melonjak
  • latency inferensi meningkat
  • performa reasoning jangka panjang menurun

Metode yang ada:

  • berbasis scoring token importance
  • melakukan eviction pada token dengan skor rendah

❌ Keterbatasan metode yang ada

Hasil eksperimen pada makalah ini menunjukkan:

  • meskipun importance scoring ditingkatkan secara cermat
    → perubahan pada himpunan token yang benar-benar dipertahankan tetap terbatas

Dengan kata lain,

  • hanya memperbaiki strategi eviction
    memiliki batas dalam peningkatan performa dan efisiensi

🔥 Ide inti

CASK memisahkan token bukan berdasarkan tingkat kepentingan, tetapi berdasarkan peran.

Core

  • berkontribusi langsung pada pembuatan output akhir
  • merupakan status inti dari reasoning
  • selalu dipertahankan

Scratch

  • status yang dihasilkan selama perhitungan menengah dan proses eksplorasi
  • dapat mencakup informasi yang redundan dan tidak perlu
  • menjadi target kompresi dan penggabungan

⚙️ Cara kerja

Prefix Phase

  • bagian input (prompt)
  • melakukan sebagian KV eviction

Decode Phase

  • bagian saat inferensi berlangsung
  • hanya menerapkan kompresi selektif pada area Scratch

👉 Perbedaannya dibanding metode lama:

  • dari penghapusan sederhana → preservasi selektif + kompresi struktural

📊 Performa

Berdasarkan hasil makalah:

  • dibanding teknik kompresi KV yang ada
    penghematan memori tambahan hingga 25%

  • pada KV cache budget yang sama
    → mempertahankan akurasi yang lebih tinggi

  • pada beberapa bagian
    mencapai performa lebih tinggi dengan KV cache yang lebih sedikit

Contoh:

  • CASK (KV 384) > metode lama (KV 512)

👉 Berhasil mencapai penurunan penggunaan memori sekaligus peningkatan performa


📌 Karakteristik teknis

  • token-level pruning → structure-aware compression
  • berfokus pada eviction → strategi preserve + reuse
  • memperkuat penggunaan ulang informasi selama proses reasoning

📌 Makna

CASK menggeser optimasi KV cache dari

  • “seberapa banyak yang akan dibuang” menjadi
  • “apa yang harus dipertahankan”

sebagai pendekatan utamanya.


🚀 Ringkasan

  • penghematan tambahan KV cache hingga 25%
  • memperoleh performa inferensi yang sama atau lebih tinggi
  • mengusulkan metode pengelolaan KV berbasis struktur

2 komentar

 
wogns3623 7 hari lalu

Jika Anda memanfaatkan AI dalam penulisan makalah, saya penasaran bagaimana Anda menggunakannya. Bagian yang menyebutkan bahwa prosesnya berjalan dari ideasi hingga eksperimen hanya dalam 5 hari sangat mengesankan, jadi saya bertanya.

 
skyline23 7 hari lalu

Karena tidak bisa diedit, saya tambahkan di sini!