Tren terbaru dalam arsitektur LLM: berbagi KV, mHC, dan attention terkompresi

(magazine.sebastianraschka.com)

19 poin oleh GN⁺ 2026-05-23 | Belum ada komentar. | Bagikan ke WhatsApp

Seiring open-weight LLM yang baru dirilis berfokus pada efisiensi konteks panjang, jumlah trik arsitektur untuk mengurangi ukuran cache KV, traffic memori, dan biaya attention meningkat pesat
Gemma 4 meningkatkan efisiensi cache KV dan parameter sekaligus melalui berbagi KV antar-layer (cross-layer attention) dan per-layer embeddings (PLE)
Laguna XS.2 memperkenalkan layer-wise attention budgeting yang mengalokasikan jumlah query head berbeda untuk tiap layer
ZAYA1-8B menjalankan operasi attention langsung di ruang laten terkompresi melalui Compressed Convolutional Attention (CCA), sehingga mengurangi bukan hanya cache KV tetapi juga FLOPs attention
DeepSeek V4 memperluas jalur residual dengan mHC (Manifold-Constrained Hyper-Connections), lalu mengompresi panjang sekuens dengan CSA/HCA untuk memangkas FLOPs dan cache KV secara besar dibanding V3.2 pada konteks 1M token

Gambaran umum: arsitektur terbaru yang berfokus pada efisiensi konteks panjang

Saat model reasoning dan workflow agen mempertahankan lebih banyak token lebih lama, ukuran cache KV, traffic memori, dan biaya attention muncul sebagai kendala utama
Poin desain baru yang muncul pada model open-weight utama yang dirilis pada April–Mei
- Gemma 4: KV sharing dan per-layer embeddings
- Laguna XS.2: layer-wise attention budgeting
- ZAYA1-8B: compressed convolutional attention
- DeepSeek V4: mHC + compressed attention
Artikel ini tidak membahas campuran data, jadwal pelatihan, post-training, resep RL, atau benchmark, melainkan berfokus pada perubahan internal pada blok transformer, residual stream, cache KV, dan operasi attention

1. Gemma 4: mengecilkan cache lewat berbagi KV antar-layer

Keluarga Gemma 4 yang dirilis Google pada awal April terdiri dari 3 kategori
- Gemma 4 E2B/E4B: model kecil untuk perangkat mobile dan embedded (IoT)
- Gemma 4 26B MoE: model MoE yang dioptimalkan untuk inferensi lokal yang efisien
- Gemma 4 31B dense: model dense untuk kualitas tertinggi dan kemudahan post-training
Penerapan KV sharing (cross-layer attention)
- Layer-layer bagian akhir tidak menghitung proyeksi K/V sendiri, melainkan menggunakan ulang tensor KV dari layer non-shared terdekat sebelumnya dengan tipe attention yang sama
- Layer sliding window berbagi KV dengan layer sliding window sebelumnya, dan layer full-attention berbagi dengan layer full-attention sebelumnya
- Karena proyeksi query tetap dihitung sendiri oleh tiap layer, pola attention per layer tetap terjaga
- Pada Gemma 4 E2B, dari 35 layer transformer, hanya 15 layer pertama yang menghitung KV sendiri, sedangkan 20 layer terakhir menggunakan ulang
- Pada Gemma 4 E4B, dari 42 layer, hanya 24 yang menghitung KV sendiri, dan 18 layer terakhir menggunakan ulang
Dampak penghematan
- Sekitar setengah KV dibagi pakai, sehingga ukuran cache KV berkurang sekitar setengah
- Pada konteks panjang 128K (bfloat16), E2B menghemat 2.7 GB dan E4B sekitar 6 GB
Keterbatasan
- KV sharing adalah bentuk aproksimasi yang mengurangi capacity model
- Menurut paper cross-layer attention, dampaknya minimal (pada model kecil yang diuji)
Konsep ini sendiri didasarkan pada Brandon et al., "Reducing Transformer Key-Value Cache Size with Cross-Layer Attention" (NeurIPS 2024), dan Gemma 4 merupakan contoh pertama penerapan pada arsitektur yang dikenal luas

2. Per-Layer Embeddings (PLE) dan ukuran "Effective" pada Gemma 4 E2B/E4B

PLE adalah desain efisiensi yang terpisah dari KV sharing, dengan fokus pada efisiensi parameter
"E" berarti effective
- Gemma 4 E2B: 2.3B effective parameters, 5.1B jika termasuk embedding
- Gemma 4 E4B: 4.5B effective parameters, 8B jika termasuk embedding
- Komputasi stack transformer utama lebih dekat ke angka yang kecil, sedangkan angka yang besar mencakup layer tabel embedding tambahan
Struktur PLE
- Vektor PLE disiapkan di luar blok transformer yang berulang
- Token ID melewati per-layer embedding lookup, dan embedding token biasa diproyeksikan secara linear ke ruang PLE yang sama
- Kedua hasil dijumlahkan lalu di-scale dan di-reshape untuk membentuk tensor yang memiliki satu slice per layer
- Tiap layer l hanya menerima slice miliknya sendiri (ple_l)
Cara kerja di dalam blok transformer
- Attention dan pembaruan residual feedforward dijalankan seperti biasa
- Setelah residual add kedua, hidden state z meng-gate vektor PLE per layer
- Vektor PLE yang sudah di-gate lalu diproyeksikan kembali dan dinormalisasi ke hidden size model, kemudian ditambahkan sebagai pembaruan residual tambahan
Tujuan PLE
- Blok transformer yang mahal dipertahankan mendekati ukuran "effective" yang kecil
- Capacity tambahan disimpan dalam tabel embedding per layer, yang berbasis lookup sehingga jauh lebih murah daripada menambah bobot attention atau FFN
- Berbeda dari sekadar mengecilkan model dense, pendekatan ini tidak mengorbankan capacity bagian komputasi utama
Secara prinsip PLE tidak terbatas hanya untuk model kecil, tetapi model besar biasanya sudah memiliki capacity yang cukup dan bisa memperluas capacity lewat MoE

3. Laguna XS.2: Layer-Wise Attention Budgeting

Laguna adalah model open-weight pertama dari Poolside, perusahaan berbasis Eropa yang berfokus pada coding LLM
Konfigurasi dasar
- Total 40 layer, dengan 30 layer sliding window attention dan 10 layer global/full attention
- Ukuran window untuk layer sliding window: 512 token
- Pola campuran sliding window + global itu sendiri juga digunakan pada arsitektur lain seperti Gemma 4
Hal baru: pembedaan jumlah query head per layer
- Melalui pengaturan num_attention_heads_per_layer di Hugging Face config.json, jumlah query head yang berbeda dapat ditetapkan untuk tiap layer sambil tetap menjaga kompatibilitas bentuk cache KV
- Layer sliding window: 8 query head per KV head
- Layer full attention: 6 query head per KV head
- KV head tetap tetap di angka 8
Niat desain
- Alih-alih memberi anggaran attention yang sama ke semua layer, pendekatan ini memusatkan capacity attention pada bagian yang paling berguna
- Karena layer full-attention melihat seluruh konteks dan lebih mahal, jumlah query head yang dialokasikan dibuat lebih sedikit
Gagasan membedakan capacity per layer setidaknya dapat ditelusuri sampai OpenELM milik Apple pada 2024, dan Laguna XS.2 adalah contoh terbaru yang paling menonjol di kalangan model open production-grade
Sebagai tambahan, Laguna juga menerapkan per-head attention-output gating (mirip Qwen3-Next, dll.)

4. ZAYA1-8B: Compressed Convolutional Attention (CCA)

Model open-weight yang dikembangkan oleh Zyphra, dengan ciri khas dilatih di GPU AMD, bukan NVIDIA GPU atau Google TPU
Struktur
- Dalam config.json terdapat 80 entri layer bergantian, dengan attention CCA/GQA dan feedforward MoE muncul selang-seling (secara visual sering digambarkan sebagai 40 pasangan attention+MoE)
- CCA digunakan bersama layout GQA 4:1
- MoE memakai konfigurasi yang sangat sparse, dengan hanya 1 expert routing aktif per token
Inti CCA
- Mirip MLA, CCA memperkenalkan representasi laten terkompresi ke dalam blok attention
- Bedanya, MLA terutama memakai representasi laten untuk mengecilkan cache KV, lalu attention sebenarnya dilakukan setelah diproyeksikan kembali ke ruang head attention
- CCA mengompresi Q, K, dan V sekaligus lalu menjalankan operasi attention langsung di ruang laten terkompresi, dan vektor hasil attention kemudian di-up-projection kembali
- Hasilnya, CCA mengurangi bukan hanya cache KV tetapi juga FLOPs attention saat prefill dan training
Convolutional Mixing
- Nama "Convolutional" muncul karena ada convolutional mixing tambahan pada representasi K dan Q yang terkompresi
- Kompresi membuat Q, K, V menjadi lebih sempit sehingga menghemat komputasi dan cache, tetapi dapat menurunkan daya representasi attention
- Convolution menjadi cara murah untuk menambahkan konteks lokal ke Q dan K yang terkompresi
- Ini tidak diterapkan pada V — karena Q dan K menentukan skor attention, sedangkan V adalah konten yang dirata-ratakan oleh skor tersebut
- Selain sequence mixing, ada juga komponen channel mixing
Kinerja
- CCA diperkenalkan lebih dulu dalam paper terpisah "Compressed Convolutional Attention: Efficient Attention in a Compressed Latent Space" (Oktober 2025), sebelum laporan teknis ZAYA1-8B
- Menurut eksperimen pada paper CCA, performanya lebih baik daripada MLA pada konfigurasi kompresi yang sama

5. DeepSeek V4: CSA/HCA, mHC, dan cache attention terkompresi

DeepSeek V4 adalah rilis dengan sorotan dan skala model terbesar tahun ini, dan DeepSeek V4-Pro adalah MoE paling sparse berdasarkan proporsi active parameter
Artikel ini berfokus pada dua inti baru dibanding arsitektur sebelumnya
- mHC: jalur residual yang lebih lebar
- CSA/HCA: kompresi dan sparsifikasi attention untuk konteks panjang
5.1 Manifold-Constrained Hyper-Connections (mHC)
- Berdasarkan paper tim DeepSeek tertanggal 31 Desember 2025, "mHC: Manifold-Constrained Hyper-Connections", yang saat itu hanya diuji pada skala 27B, tetapi kini diterapkan penuh pada flagship ini
- Tujuannya adalah memodernisasi desain residual connection di dalam blok transformer — berbeda dari perubahan yang biasanya terfokus pada attention/normalization/MoE
- Latar belakang Hyper-Connections (HC)
  - Berdasarkan Zhu et al. (2024) "Hyper-connections"
  - Mengganti satu residual stream menjadi beberapa residual stream paralel dan mapping yang dipelajari
  - Agar layer attention dan MoE bisa tetap bekerja pada hidden size biasa, ditambahkan Pre Mapping (stream paralel → satu hidden vector) dan Post Mapping (output layer → distribusi ke stream paralel)
  - Ini membuat jalur residual lebih ekspresif tanpa melebarkan attention atau MoE itu sendiri
  - Pada eksperimen 7B OLMo MoE, FLOPs per token praktis tidak berubah, dari 13.36G → 13.38G, sementara performa baseline dicapai dengan sekitar setengah token pelatihan
- Perubahan dari HC ke mHC
  - Pada HC biasa, Res Mapping berupa matriks yang dapat dipelajari, sehingga penguatan atau pelemahan sinyal setelah banyak layer sulit diprediksi
  - mHC memproyeksikan residual mapping ke manifold doubly stochastic matrices — semua entri non-negatif, dan jumlah tiap baris serta kolom sama dengan 1
  - Dengan demikian, pencampuran residual bertindak seperti redistribusi informasi yang stabil antastream
  - Pre Mapping dan Post Mapping juga dibatasi agar non-negatif dan bernilai terbatas, untuk mencegah pembatalan saat membaca/menulis state residual yang diperlebar
  - Ini memberi stabilitas scaling yang makin penting pada model yang lebih dalam
- Biaya
  - Pada eksperimen model 27B, dengan implementasi optimasi tim DeepSeek (fusion, recomputation, pipeline scheduling), overhead waktu training saat memakai n=4 residual stream adalah 6.7%
5.2 Attention terkompresi melalui CSA dan HCA
- Tujuannya adalah menyelesaikan masalah bahwa pada konteks yang sangat panjang, bukan hanya perhitungan skor attention, tetapi juga cache KV membesar sebanding dengan panjang sekuens
- DeepSeek V4 memakai hibrida dari dua attention terkompresi: Compressed Sparse Attention (CSA) dan Heavily Compressed Attention (HCA)
- Perbedaan dengan MLA
  - MLA pada DeepSeek V2/V3 mengompresi representasi KV per token, tetapi tetap mempertahankan satu entri KV laten per token
  - CSA/HCA melakukan kompresi di sepanjang dimensi sekuens, merangkum beberapa grup token menjadi lebih sedikit entri KV terkompresi sehingga cache itu sendiri menjadi lebih pendek
  - Dengan mengorbankan sebagian informasi tingkat token, pendekatan ini mengurangi biaya konteks panjang secara drastis
- CSA vs HCA
  - CSA: rasio kompresi ringan (m=4) + pemilihan top-k gaya DeepSeek Sparse Attention (DSA)
  - HCA: kompresi kuat (m'=128, 128 token dikompresi menjadi 1 entri KV terkompresi) + dense attention di atas cache yang telah dipendekkan
  - Keduanya tetap mempertahankan cabang sliding window 128 token untuk token terbaru yang tidak dikompresi
  - CSA mempertahankan lebih banyak detail tetapi memakai seleksi sparse, sedangkan HCA memangkas jumlah entri secara besar agar dense attention tetap mungkin — jadi keduanya saling melengkapi, sehingga DeepSeek V4 menempatkan kedua jenis layer ini secara bergantian
- Hasil efisiensi (konteks 1M token, dibanding DeepSeek V3.2)
  - DeepSeek V4-Pro: FLOPs inferensi token tunggal 27%, ukuran cache KV 10%
  - DeepSeek V4-Flash: FLOPs 10%, ukuran cache KV 7%
- Catatan evaluasi
  - Sulit menyimpulkan bahwa CSA/HCA secara umum "lebih baik" daripada MLA, karena ini adalah desain konteks panjang yang lebih agresif dan lebih kompleks
  - Paper-nya tidak memiliki ablation study
  - DeepSeek V4-Flash-Base melampaui V3.2-Base pada banyak benchmark base dan menunjukkan hasil kuat pada retrieval 1M token, tetapi ini merupakan hasil dari keseluruhan resep, termasuk data yang lebih baik, optimisasi berbasis Muon, mHC, optimisasi presisi/penyimpanan, serta perubahan sistem training/inferensi

6. Kesimpulan

Pola umum pada model open-weight baru tahun ini adalah menurunkan biaya inferensi konteks panjang tanpa mengurangi total jumlah parameter
- Gemma 4: mengecilkan cache KV dengan cross-layer KV sharing, menambah capacity dengan per-layer embeddings
- Laguna XS.2: membedakan capacity attention per layer
- ZAYA1-8B: memindahkan attention ke ruang laten terkompresi
- DeepSeek V4: pencampuran residual stream yang dibatasi + attention konteks panjang terkompresi
Blok transformer masih terus berubah, tetapi dalam bentuk modifikasi yang targetnya jelas, sementara kerangka dasarnya tetap arsitektur GPT decoder-only
Kinerja pemodelan secara kualitatif masih terutama didorong oleh kualitas/jumlah data dan resep training
Sampai saat ini, transformer tetap menjadi status quo arsitektur SOTA, meskipun ada alternatif seperti diffusion model
Blok transformer dasar dulu bisa diimplementasikan dalam 50–100 baris PyTorch, tetapi belakangan ini variasi attention dan lainnya membuat kompleksitas kode meningkat sekitar 10x
Kenaikan kompleksitas itu sendiri tidak sepenuhnya negatif karena menurunkan biaya runtime, tetapi pemahaman yang jelas atas tiap komponen dan interaksinya menjadi makin sulit
Pendekatan belajar yang disarankan: mulai dari decoder-style LLM orisinal (GPT/GPT-2), lalu menambahkan komponen baru satu per satu sambil mempelajarinya

Tren terbaru dalam arsitektur LLM: berbagi KV, mHC, dan attention terkompresi

Gambaran umum: arsitektur terbaru yang berfokus pada efisiensi konteks panjang

1. Gemma 4: mengecilkan cache lewat berbagi KV antar-layer

Penerapan KV sharing (cross-layer attention)

Dampak penghematan

Keterbatasan

2. Per-Layer Embeddings (PLE) dan ukuran "Effective" pada Gemma 4 E2B/E4B

"E" berarti effective

Struktur PLE

Cara kerja di dalam blok transformer

Tujuan PLE

3. Laguna XS.2: Layer-Wise Attention Budgeting

Konfigurasi dasar

Hal baru: pembedaan jumlah query head per layer

Niat desain

4. ZAYA1-8B: Compressed Convolutional Attention (CCA)

Struktur

Inti CCA

Convolutional Mixing

Kinerja

5. DeepSeek V4: CSA/HCA, mHC, dan cache attention terkompresi

5.1 Manifold-Constrained Hyper-Connections (mHC)

Latar belakang Hyper-Connections (HC)

Perubahan dari HC ke mHC

Biaya

5.2 Attention terkompresi melalui CSA dan HCA

Perbedaan dengan MLA

CSA vs HCA

Hasil efisiensi (konteks 1M token, dibanding DeepSeek V3.2)

Catatan evaluasi

6. Kesimpulan

Bacaan terkait

Belum ada komentar.