Ringkasan membaca paper DeepSeek-V4 - Noh Jeong-seok
(youtube.com)DeepSeek-V4 menjadi sorotan lewat inovasi arsitektur yang ditunjukkannya dan menjadi penanda baru bagi frontier lab. Pada pekan keempat April 2026, di tengah rangkaian pengumuman besar seperti GPT-5.5 dan Google Cloud Next, peristiwa yang paling patut diperhatikan adalah dirilisnya DeepSeek-V4. Model ini muncul sekitar 1 tahun 4 bulan setelah R1, memperbesar skala dari 600B pada V3 menjadi 1.6T, dengan parameter aktif juga sedikit bertambah. Yang paling penting, tiga perubahan algoritmik sekaligus diterapkan: Sparse Attention, mHC(Manifold-Constrained Hyper-Connections), dan optimizer Muon; hasilnya dirangkum padat dalam paper sekitar 40 halaman. Kim Seong-hyeon dan Noh Jeong-seok menilai laporan ini bukan sekadar pamer performa, melainkan catatan atas trial and error yang menyakitkan selama setahun.
Perubahan inti arsitektur
- Adopsi penuh Sparse Attention: Alih-alih metode lama yang merujuk ke semua token sebelumnya, sistem ini diubah agar hanya memilih sebagian token yang bermakna untuk dirujuk. Strukturnya menggabungkan tiga hal: sliding window attention, full attention terhadap token yang dikompresi hingga 1/100, dan Compressed Sparse Attention yang mengompresi hingga 1/4 lalu memilih top-k dengan Lightning Indexer.
- Penerapan mHC: Struktur yang menstabilkan Hyper-Connections di atas manifold, dengan memperlebar jalur residual connection yang menjadi inti deep learning sehingga batasannya lebih longgar.
- Mengadopsi optimizer Muon: Optimizer yang setelah Adam praktis dipakai seperti standar oleh model-model China, dan meningkatkan kecepatan pelatihan sekaligus efisiensi data.
- Menghapus MLA: MLA yang selama ini nyaris menjadi simbol DeepSeek ditinggalkan dan diganti dengan Multi-Query Attention yang lebih sederhana.
Kelebihan dan karakteristik utama
- Penurunan drastis biaya long context: Meski modelnya 2.5~3 kali lebih besar dibanding V3, compute operasi token turun menjadi sekitar 27% dan memori KV cache menjadi sekitar 10%.
- Pelatihan long context sejak tahap pretraining: 1T token awal dilatih pada 4K~16K, lalu lebih dari 30T token berikutnya pada 64K ke atas. Ini berbeda dari praktik umum yang memperpanjang konteks pada tahap pascapemrosesan.
- Kedalaman optimasi infrastruktur: Terdapat detail optimasi yang rapat, seperti overlap komunikasi dan komputasi MoE yang menyempurnakan Comet milik ByteDance, megakernel yang didorong hingga terkena power throttling, kontribusi ke TileLang, optimasi besar pada kernel batch invariance, serta kompresi bobot expert dengan MXFP4 (4-bit).
- Kepemimpinan algoritmik: Di saat big tech AS tidak membuka arsitekturnya, ada penilaian bahwa setidaknya pada ranah pretraining, levelnya setara atau sebagian bahkan lebih maju.
Kekurangan dan keterbatasan
- Ketidakstabilan pelatihan: Berbeda dari tren terbaru ketika developer LLM mengatakan pelatihan sangat stabil, DeepSeek-V4 secara jujur menunjukkan bahwa mereka berkali-kali mengalami masalah ketidakstabilan. Mereka sampai memakai berbagai perangkat sulit seperti perbaikan MoE gating, clamping, dan Anticipatory Routing yang merutekan dengan bobot dari titik waktu lampau.
- Sulit direproduksi: Kesimpulan umum tim-tim lain di China adalah bahwa melatih Sparse Attention nyaris dari nol sangatlah sulit. Meski DeepSeek berhasil, kemungkinan besar tim lain tidak akan mudah mengejarnya.
- Keterbatasan pada post-training: Dibanding lompatan pada pretraining, post-training dinilai masih menyisakan ruang pengembangan. Ini area yang sangat mungkin diperkuat pada tahap 4.1 dan 4.2.
- Hening soal data: Mereka hanya menyebut telah menyiapkan 32T token, tetapi hampir tidak menjelaskan komposisi data secara rinci, termasuk apakah data sintetis digunakan atau tidak.
Pembeda
- Keterbukaan yang transparan: Berbeda dari frontier lab lain yang menyembunyikan arsitektur, mereka mengungkap struktur dan trial and error dengan cukup jujur.
- Desain terintegrasi di tahap pretraining: Yang menonjol adalah long context, Sparse Attention, dan kuantisasi FP4 dilebur ke pretraining, bukan ditambahkan di tahap akhir.
- Diversifikasi hardware: Mereka menyatakan menggunakan chip Huawei bersama chip NVIDIA, yang menyiratkan bahwa alternatif semikonduktor di China mulai mapan.
Makna dari sudut pandang industri
- Perubahan peta frontier lab China: Muncul pandangan bahwa hampir lima tim tampil bersamaan di garis depan—DeepSeek, Kimi, Z.ai(GLM), Tencent Hunyuan 3, dan Xiaomi MiMo—dan pada sisi pretraining sudah ada area yang setara atau sebagian lebih maju dari AS.
- Post-training menjadi medan tempur berikutnya: Tampaknya momen ketika compute setara pretraining mulai dialokasikan ke post-training akan segera datang, dan kesenjangan di sini kemungkinan menjadi penentu persaingan generasi berikutnya.
- Update model menjadi hal biasa: Ketika GPT-5.5, Claude Mythos, Spud, dan DeepSeek-V4 mengganti base model pada periode yang mirip, mulai terlihat tren bahwa update model menjadi terasa hambar seperti update browser Chrome.
DeepSeek-V4 kali ini lebih dekat dengan sebuah dokumentasi yang menunjukkan bagaimana satu tim menerobos berbagai persoalan sulit selama setahun, ketimbang sekadar kumpulan metrik performa sebuah model tunggal. Upaya membawa Sparse Attention sejak tahap pretraining, pekerjaan infrastruktur untuk menurunkan biaya long context ke rasio satu digit pada skala 1.6T, serta perangkat-perangkat nonstandar yang diperkenalkan sambil bergulat dengan ketidakstabilan pelatihan, sangat mungkin menjadi basis baru bagi frontier model asal China ke depan. Pada saat yang sama, tugas yang tersisa pada post-training dan data masih jelas terlihat, sehingga seberapa jauh 4.1 dan 4.2 dapat mempersempit kesenjangan ini tampaknya akan menjadi titik pantau utama pada kuartal berikutnya.
4 komentar
Orang-orang memang mengatakan hal-hal seperti tidak bisa percaya hanya karena buatan Tiongkok, tetapi saya pribadi sangat berterima kasih setidaknya pada arah DeepSeek yang meneliti dan membuka hasilnya, sampai-sampai mereka juga mempublikasikan proses trial and error-nya.
Bukan No Seong-hun, melainkan Kim Seong-hyeon.
Saya sudah merevisinya.
Terima kasih. Sepertinya ini perlu diperbaiki.